論文の概要: RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2510.20206v1
- Date: Thu, 23 Oct 2025 04:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.334927
- Title: RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling
- Title(参考訳): RAPO++: データアライメントとテストタイムスケーリングによるテキスト対ビデオ生成のためのクロスステージプロンプト最適化
- Authors: Bingjie Gao, Qianli Ma, Xiaoxue Wu, Shuai Yang, Guanzhou Lan, Haonan Zhao, Jiaxuan Chen, Qingyang Liu, Yu Qiao, Xinyuan Chen, Yaohui Wang, Li Niu,
- Abstract要約: textbfRAPO++は、クロスプラットフォームのプロンプト最適化フレームワークである。
トレーニングデータの整合性向上、テスト時の反復スケーリング、大規模言語モデルの微調整を統一する。
RAPO++は意味的アライメント、構成的推論、時間的安定性、物理的妥当性において大きな進歩を遂げている。
- 参考スコア(独自算出の注目度): 59.088798018184235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt design plays a crucial role in text-to-video (T2V) generation, yet user-provided prompts are often short, unstructured, and misaligned with training data, limiting the generative potential of diffusion-based T2V models. We present \textbf{RAPO++}, a cross-stage prompt optimization framework that unifies training-data--aligned refinement, test-time iterative scaling, and large language model (LLM) fine-tuning to substantially improve T2V generation without modifying the underlying generative backbone. In \textbf{Stage 1}, Retrieval-Augmented Prompt Optimization (RAPO) enriches user prompts with semantically relevant modifiers retrieved from a relation graph and refactors them to match training distributions, enhancing compositionality and multi-object fidelity. \textbf{Stage 2} introduces Sample-Specific Prompt Optimization (SSPO), a closed-loop mechanism that iteratively refines prompts using multi-source feedback -- including semantic alignment, spatial fidelity, temporal coherence, and task-specific signals such as optical flow -- yielding progressively improved video generation quality. \textbf{Stage 3} leverages optimized prompt pairs from SSPO to fine-tune the rewriter LLM, internalizing task-specific optimization patterns and enabling efficient, high-quality prompt generation even before inference. Extensive experiments across five state-of-the-art T2V models and five benchmarks demonstrate that RAPO++ achieves significant gains in semantic alignment, compositional reasoning, temporal stability, and physical plausibility, outperforming existing methods by large margins. Our results highlight RAPO++ as a model-agnostic, cost-efficient, and scalable solution that sets a new standard for prompt optimization in T2V generation. The code is available at https://github.com/Vchitect/RAPO.
- Abstract(参考訳): プロンプトデザインは、テキスト・ツー・ビデオ(T2V)生成において重要な役割を果たすが、ユーザが提供するプロンプトは、しばしば短く、構造化されておらず、トレーニングデータと不一致であり、拡散ベースのT2Vモデルの生成可能性を制限する。
本稿では,トレーニングデータの整合性向上,テストタイム反復スケーリング,大規模言語モデル(LLM)の微調整を,基礎となる生成バックボーンを変更することなく,T2V生成を大幅に改善する,クロスステージなプロンプト最適化フレームワークである‘textbf{RAPO++} を提案する。
Retrieval-Augmented Prompt Optimization (RAPO) では、関係グラフから取得した意味的関連修飾子でユーザプロンプトを豊かにし、トレーニング分布にマッチするようにリファクタリングし、構成性や多目的忠実さを向上させる。
SSPO(Sample-Specific Prompt Optimization)は、セマンティックアライメント、空間的忠実性、時間的コヒーレンス、光学フローなどのタスク固有の信号など、複数のソースフィードバックを使ってプロンプトを反復的に洗練するクローズドループ機構である。
\textbf{Stage 3} は SSPO から最適化されたプロンプトペアを活用してリライター LLM を微調整し、タスク固有の最適化パターンを内部化し、推論の前でさえ効率よく高品質なプロンプト生成を可能にする。
最先端の5つのT2Vモデルと5つのベンチマークによる大規模な実験により、RAPO++は意味的アライメント、構成的推論、時間的安定性、物理的妥当性において大きな向上を達成し、既存の手法を大きなマージンで上回ることを示した。
この結果から, RAPO++ はモデルに依存しない, コスト効率, スケーラブルなソリューションであり, T2V 生成の迅速な最適化のための新しい標準となることがわかった。
コードはhttps://github.com/Vchitect/RAPO.comで公開されている。
関連論文リスト
- IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - Structured Information for Improving Spatial Relationships in Text-to-Image Generation [23.552628360388823]
この作業では、自動変換とT2Iパイプラインへのシームレスな統合のために、微調整された言語モデルを使用して、構造化情報でプロンプトを強化する軽量なアプローチを導入している。
Inception Scoreで測定された画像品質を損なうことなく空間精度を大幅に向上させる実験結果が得られた。
この構造化情報は、T2I生成における空間的関係を高めるための実用的でポータブルなソリューションを提供し、現在の生成システムの鍵となる限界に対処する。
論文 参考訳(メタデータ) (2025-09-19T13:20:34Z) - The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation [40.73687553764341]
RAPO(Retrieval-Augmented Prompt Optimization framework)を紹介する。
RAPOは、ユーザのプロンプトを2つの最適化ブランチを通じて洗練し、T2V生成の優れたプロンプトを選択する。
大規模な実験により、RAPOは生成されたビデオの静的次元と動的次元の両方を効果的に拡張できることが示された。
論文 参考訳(メタデータ) (2025-04-16T03:33:25Z) - Fast Prompt Alignment for Text-to-Image Generation [28.66112701912297]
本稿では,FPA(Fast Prompt Alignment)を提案する。
FPAは単一命令プロンプトのパラフレーズに大規模言語モデル(LLM)を使用し、その後最適化されたプロンプトで微調整やテキスト内学習を行う。
FPAは、処理時間のごく一部で競合するテキスト画像アライメントスコアを達成する。
論文 参考訳(メタデータ) (2024-12-11T18:58:41Z) - Minority-Focused Text-to-Image Generation via Prompt Optimization [57.319845580050924]
本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。
我々は、推論中に所望のプロパティの出現を促すオンラインプロンプト最適化フレームワークを開発する。
次に、この一般的なプロンプト分布を、マイノリティな特徴の生成を促進する特別な解法へと調整する。
論文 参考訳(メタデータ) (2024-10-10T11:56:09Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - TS-HTFA: Advancing Time Series Forecasting via Hierarchical Text-Free Alignment with Large Language Models [14.411646409316624]
時系列予測の新しい手法である textbfHierarchical textbfText-textbfFree textbfAlignment (textbfTS-HTFA) を導入する。
我々は、QR分解語埋め込みと学習可能なプロンプトに基づいて、ペア化されたテキストデータを適応的な仮想テキストに置き換える。
複数の時系列ベンチマークの実験は、HTFAが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-09-23T12:57:24Z) - UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.05657299071648]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。