論文の概要: InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO
- arxiv url: http://arxiv.org/abs/2505.17574v1
- Date: Fri, 23 May 2025 07:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.8986
- Title: InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO
- Title(参考訳): InfLVG:GRPOによる推論時間連続長ビデオ生成の強化
- Authors: Xueji Fang, Liyuan Ma, Zhiyang Chen, Mingyuan Zhou, Guo-jun Qi,
- Abstract要約: InfLVGは、追加のロングフォームビデオデータを必要としないコヒーレントなロングビデオ生成を可能にする推論時フレームワークである。
InfLVGはビデオ長を最大9$times$まで拡張でき、シーン間の一貫性とセマンティック忠実性を実現することができる。
- 参考スコア(独自算出の注目度): 73.33751812982342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-video generation, particularly with autoregressive models, have enabled the synthesis of high-quality videos depicting individual scenes. However, extending these models to generate long, cross-scene videos remains a significant challenge. As the context length grows during autoregressive decoding, computational costs rise sharply, and the model's ability to maintain consistency and adhere to evolving textual prompts deteriorates. We introduce InfLVG, an inference-time framework that enables coherent long video generation without requiring additional long-form video data. InfLVG leverages a learnable context selection policy, optimized via Group Relative Policy Optimization (GRPO), to dynamically identify and retain the most semantically relevant context throughout the generation process. Instead of accumulating the entire generation history, the policy ranks and selects the top-$K$ most contextually relevant tokens, allowing the model to maintain a fixed computational budget while preserving content consistency and prompt alignment. To optimize the policy, we design a hybrid reward function that jointly captures semantic alignment, cross-scene consistency, and artifact reduction. To benchmark performance, we introduce the Cross-scene Video Benchmark (CsVBench) along with an Event Prompt Set (EPS) that simulates complex multi-scene transitions involving shared subjects and varied actions/backgrounds. Experimental results show that InfLVG can extend video length by up to 9$\times$, achieving strong consistency and semantic fidelity across scenes. Our code is available at https://github.com/MAPLE-AIGC/InfLVG.
- Abstract(参考訳): 近年のテキスト・ビデオ生成の進歩、特に自己回帰モデルにより、個々のシーンを描写した高品質なビデオの合成が可能になった。
しかし、これらのモデルを長期のクロスシーンビデオに拡張することは大きな課題だ。
自己回帰復号化の過程で文脈長が増大するにつれて、計算コストは急激に上昇し、一貫性を維持し、進化するテキストプロンプトに固執するモデルの能力は低下する。
InfLVGは、より長いフォーマットのビデオデータを必要とすることなく、コヒーレントな長ビデオ生成を可能にする推論時フレームワークである。
InfLVGは、グループ相対ポリシー最適化(GRPO)によって最適化された学習可能なコンテキスト選択ポリシーを利用して、生成プロセスを通して最も意味のあるコンテキストを動的に識別し、保持する。
世代履歴全体を蓄積する代わりに、ポリシーはK$で最も文脈的に関係のあるトークンをランク付けし、選択し、コンテントの一貫性を維持し、アライメントを迅速に保ちながら、固定された計算予算を維持することができる。
ポリシーを最適化するために、セマンティックアライメント、クロスシーン一貫性、アーティファクトリダクションを共同でキャプチャするハイブリッド報酬関数を設計する。
性能をベンチマークするために、クロスシーンビデオベンチマーク(CsVBench)とイベントプロンプトセット(EPS)を導入し、共有対象と多様なアクション/バックグラウンドを含む複雑なマルチシーン遷移をシミュレートする。
実験結果から,InfLVGは最大9$\times$までビデオ長を拡張できることがわかった。
私たちのコードはhttps://github.com/MAPLE-AIGC/InfLVG.comで利用可能です。
関連論文リスト
- HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。
マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文 参考訳(メタデータ) (2025-03-14T15:36:39Z) - Video Diffusion Transformers are In-Context Learners [31.736838809714726]
本稿では,ビデオ拡散変換器のコンテキスト内機能を実現するためのソリューションについて検討する。
本稿では,テキスト内生成を利用するための簡単なパイプラインを提案する: (textbfii$) ビデオは,空間的あるいは時間的次元に沿って行われる。
当社のフレームワークは,研究コミュニティにとって貴重なツールであり,製品レベルの制御可能なビデオ生成システムを進化させる上で重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-14T10:39:55Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。