論文の概要: VISTA: A Test-Time Self-Improving Video Generation Agent
- arxiv url: http://arxiv.org/abs/2510.15831v1
- Date: Fri, 17 Oct 2025 17:12:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.724495
- Title: VISTA: A Test-Time Self-Improving Video Generation Agent
- Title(参考訳): VISTA: テストタイムの自己改善型ビデオ生成エージェント
- Authors: Do Xuan Long, Xingchen Wan, Hootan Nakhost, Chen-Yu Lee, Tomas Pfister, Sercan Ö. Arık,
- Abstract要約: VISTA (Video Iterative Self-IprovemenT Agent) は、反復ループでプロンプトを精製することで、ビデオ生成を自律的に改善する新しいシステムである。
ビデオの品質とユーザの意図との整合性を継続的に改善し、最先端のベースラインに対して最大60%の対等な勝利率を達成する。
人間の評価は一致し、VISTAの出力は66.4%である。
- 参考スコア(独自算出の注目度): 45.53495043750626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rapid advances in text-to-video synthesis, generated video quality remains critically dependent on precise user prompts. Existing test-time optimization methods, successful in other domains, struggle with the multi-faceted nature of video. In this work, we introduce VISTA (Video Iterative Self-improvemenT Agent), a novel multi-agent system that autonomously improves video generation through refining prompts in an iterative loop. VISTA first decomposes a user idea into a structured temporal plan. After generation, the best video is identified through a robust pairwise tournament. This winning video is then critiqued by a trio of specialized agents focusing on visual, audio, and contextual fidelity. Finally, a reasoning agent synthesizes this feedback to introspectively rewrite and enhance the prompt for the next generation cycle. Experiments on single- and multi-scene video generation scenarios show that while prior methods yield inconsistent gains, VISTA consistently improves video quality and alignment with user intent, achieving up to 60% pairwise win rate against state-of-the-art baselines. Human evaluators concur, preferring VISTA outputs in 66.4% of comparisons.
- Abstract(参考訳): テキスト・ビデオ合成の急速な進歩にもかかわらず、生成されたビデオの品質は正確なユーザー・プロンプトに依存している。
既存のテスト時間最適化手法は、他の領域で成功したが、ビデオの多面的な性質に苦慮している。
本稿では,反復ループ内のプロンプトを精製することで,映像生成を自律的に改善する新しいマルチエージェントシステムであるVISTA(Video Iterative Self-improvemenT Agent)を紹介する。
VISTAはまずユーザアイデアを構造化された時間計画に分解する。
生成後、最高のビデオは、堅牢なペアワイズトーナメントを通じて識別される。
この勝利のビデオは、視覚、音声、文脈の忠実さに焦点を当てた特殊エージェントの3人によって批判される。
最後に、推論エージェントがこのフィードバックを合成して内省的に書き直し、次世代サイクルのプロンプトを強化する。
シングルシーンおよびマルチシーンのビデオ生成シナリオの実験では、先行手法では一貫性のないゲインが得られるが、VISTAはビデオの品質とユーザ意図との整合性を一貫して改善し、最先端のベースラインに対して最大60%の対の勝利率を達成する。
人間の評価は一致し、VISTAの出力は66.4%である。
関連論文リスト
- VideoScore2: Think before You Score in Generative Video Evaluation [69.43069741467603]
VideoScore2は、視覚的品質、テキスト・ツー・ビデオのアライメント、物理的/常識的一貫性を明確に評価する多次元、解釈可能、そして人間によるアライメントフレームワークである。
我々のモデルは、27,168人の注釈付きビデオを含む大規模なデータセットVideoFeedback2で訓練されている。
論文 参考訳(メタデータ) (2025-09-26T18:09:03Z) - We'll Fix it in Post: Improving Text-to-Video Generation with Neuro-Symbolic Feedback [5.743225523680124]
現在のテキスト・ツー・ビデオ(T2V)生成モデルは、より長く複雑なプロンプトを扱う際に意味的かつ時間的に一貫したビデオを生成するのに苦労している。
ニューロS-Eは、ニューロシンボリックフィードバックを利用してビデオ生成を自動的に強化する、新しいゼロトレーニングビデオリファインメントパイプラインである。
提案手法は,まず,形式的ビデオ表現と意味的に一貫性のないイベント,オブジェクト,およびそれに対応するフレームをピンポイントで解析することにより,ニューロシンボリックフィードバックを導出する。
論文 参考訳(メタデータ) (2025-04-24T01:34:12Z) - Long-Video Audio Synthesis with Multi-Agent Collaboration [20.332328741375363]
LVAS-Agentは、協調的な役割を通じてプロのダビングをエミュレートする新しいフレームワークである。
提案手法は,シーンセグメンテーション,スクリプト生成,音響設計,音声合成の4段階に分割する。
中心的なイノベーションには、シーン/スクリプトの洗練のための議論の補正機構や、時間-意味的アライメントのための世代-検索ループが含まれる。
論文 参考訳(メタデータ) (2025-03-13T07:58:23Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - VELOCITI: Benchmarking Video-Language Compositional Reasoning with Strict Entailment [19.313541287648473]
VELOCITI(VELOCITI)は,エージェントの理解を解き明かし,評価することで,ビデオLLMを研究するためのベンチマークである。
我々は,ビデオ・ランゲージ・エンターメント・セットアップを採用し,正と負のキャプションの正確な分類(ランキングではなく)を必要とするStrictVLEを提案する。
その結果、アクション理解のラグや、ビデオに現れるエンティティを使って生成された否定的なキャプションは、純粋なテキスト操作で得られたものよりも悪い結果が得られた。
論文 参考訳(メタデータ) (2024-06-16T10:42:21Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z) - Blind Video Temporal Consistency via Deep Video Prior [61.062900556483164]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
本手法は,一対のオリジナルビデオとプロセッシングビデオを直接トレーニングするのみである。
本稿では,Deep Video Priorを用いてビデオ上の畳み込みネットワークをトレーニングすることにより,時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-22T16:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。