論文の概要: Retrieval, Refinement, and Ranking for Text-to-Video Generation via Prompt Optimization and Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2603.01509v1
- Date: Mon, 02 Mar 2026 06:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.717314
- Title: Retrieval, Refinement, and Ranking for Text-to-Video Generation via Prompt Optimization and Test-Time Scaling
- Title(参考訳): プロンプト最適化とテスト時間スケーリングによるテキスト・ビデオ・ジェネレーションの検索・リファインメント・ランク付け
- Authors: Zillur Rahman, Alex Sheng, Cristian Meo,
- Abstract要約: 大規模なデータセットは、Text-to-Video(T2V)生成モデルに大きな進歩をもたらした。
ビデオ出力を改善する現在の方法は、しばしば不足する。
RAGベースの新しいプロンプト最適化フレームワークである3Rを導入する。
- 参考スコア(独自算出の注目度): 1.6671050178877669
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While large-scale datasets have driven significant progress in Text-to-Video (T2V) generative models, these models remain highly sensitive to input prompts, demonstrating that prompt design is critical to generation quality. Current methods for improving video output often fall short: they either depend on complex, post-editing models, risking the introduction of artifacts, or require expensive fine-tuning of the core generator, which severely limits both scalability and accessibility. In this work, we introduce 3R, a novel RAG based prompt optimization framework. 3R utilizes the power of current state-of-the-art T2V diffusion model and vision language model. It can be used with any T2V model without any kind of model training. The framework leverages three key strategies: RAG-based modifiers extraction for enriched contextual grounding, diffusion-based Preference Optimization for aligning outputs with human preferences, and temporal frame interpolation for producing temporally consistent visual contents. Together, these components enable more accurate, efficient, and contextually aligned text-to-video generation. Experimental results demonstrate the efficacy of 3R in enhancing the static fidelity and dynamic coherence of generated videos, underscoring the importance of optimizing user prompts.
- Abstract(参考訳): 大規模なデータセットは、Text-to-Video(T2V)生成モデルに大きな進歩をもたらしたが、これらのモデルは入力プロンプトに非常に敏感であり、プロンプト設計が生成品質に不可欠であることを証明している。
複雑な編集後のモデルに依存し、アーティファクトの導入を危険にさらすか、コアジェネレータの高価な微調整を必要とするため、スケーラビリティとアクセシビリティの両方を著しく制限する。
本稿では,新しいRAGベースのプロンプト最適化フレームワークである3Rを紹介する。
3Rは、現在の最先端T2V拡散モデルとビジョン言語モデルのパワーを利用する。
いかなるT2Vモデルでも、いかなるモデルトレーニングも必要とせずに使用することができる。
このフレームワークは、3つの重要な戦略を利用する: RAGベースの修飾子抽出(enriched contextual grounding)、拡散ベースのヒトの嗜好と出力の整合化のための参照最適化(preference Optimization)、時間的一貫した視覚的コンテンツを生成するための時間的フレーム補間(temporal frame interpolation)。
これらのコンポーネントを組み合わせることで、より正確で、効率的で、コンテキストに整合したテキスト・ツー・ビデオ生成が可能になる。
実験結果から,3Rは映像の静的忠実度向上と動的コヒーレンス向上に有効であり,ユーザプロンプトの最適化の重要性が示唆された。
関連論文リスト
- Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models [76.7535001311919]
State-of-the-the-art Text-to-Video (T2V)拡散モデルは視覚的に印象的な結果を生成することができるが、複雑なシーンを作成したり、論理的時間的指示に従うのに失敗することが多い。
テキスト・ツー・ビデオ・ジェネレーションを3つの特殊ステージに分解することでこれらのタスクを分離するパイプラインであるFVGを紹介した。
提案手法は,T2V CompBench ベンチマークに新たな最先端技術を導入し,VBench2 上でのテストモデルすべてを大幅に改善する。
論文 参考訳(メタデータ) (2025-12-18T10:10:45Z) - RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling [59.088798018184235]
textbfRAPO++は、クロスプラットフォームのプロンプト最適化フレームワークである。
トレーニングデータの整合性向上、テスト時の反復スケーリング、大規模言語モデルの微調整を統一する。
RAPO++は意味的アライメント、構成的推論、時間的安定性、物理的妥当性において大きな進歩を遂げている。
論文 参考訳(メタデータ) (2025-10-23T04:45:09Z) - BridgeIV: Bridging Customized Image and Video Generation through Test-Time Autoregressive Identity Propagation [47.21414443162965]
テキスト・ツー・ビデオ(CT2V)生成のための自動回帰構造とテクスチャ・プロパゲーション・モジュール(STPM)を提案する。
STPMは、参照対象から重要な構造的およびテクスチャ的特徴を抽出し、それらを各ビデオフレームに自己回帰的に注入し、一貫性を高める。
また,テスト時間報酬最適化 (TTRO) 手法を導入し,細部まで詳細に解析する。
論文 参考訳(メタデータ) (2025-05-11T14:11:12Z) - ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [84.03286690283747]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - F3-Pruning: A Training-Free and Generalized Pruning Strategy towards
Faster and Finer Text-to-Video Synthesis [94.10861578387443]
変圧器と拡散モデルを用いた2つの主流T2Vモデルの推論過程について検討する。
本稿では、時間的余分な注意重みを突破するF3プルーニングと呼ばれるトレーニングフリーで一般化されたプルーニング戦略を提案する。
古典的なトランスフォーマーベースモデルCogVideoと典型的な拡散ベースモデルTune-A-Videoを用いた3つのデータセットの大規模な実験により、F3-Pruningの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-06T12:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。