論文の概要: The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2504.11739v1
- Date: Wed, 16 Apr 2025 03:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:37:28.355722
- Title: The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation
- Title(参考訳): The Devil is the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation
- Authors: Bingjie Gao, Xinyu Gao, Xiaoxue Wu, Yujie Zhou, Yu Qiao, Li Niu, Xinyuan Chen, Yaohui Wang,
- Abstract要約: 大規模データセットでトレーニングされたテキスト・ツー・ビデオ(T2V)生成モデルは、入力プロンプトに敏感である。
textbfRAPO, a novel textbfRetrieval-textbfAugmented textbfPrompt textbfOptimization frameworkを紹介する。
- 参考スコア(独自算出の注目度): 40.73687553764341
- License:
- Abstract: The evolution of Text-to-video (T2V) generative models, trained on large-scale datasets, has been marked by significant progress. However, the sensitivity of T2V generative models to input prompts highlights the critical role of prompt design in influencing generative outcomes. Prior research has predominantly relied on Large Language Models (LLMs) to align user-provided prompts with the distribution of training prompts, albeit without tailored guidance encompassing prompt vocabulary and sentence structure nuances. To this end, we introduce \textbf{RAPO}, a novel \textbf{R}etrieval-\textbf{A}ugmented \textbf{P}rompt \textbf{O}ptimization framework. In order to address potential inaccuracies and ambiguous details generated by LLM-generated prompts. RAPO refines the naive prompts through dual optimization branches, selecting the superior prompt for T2V generation. The first branch augments user prompts with diverse modifiers extracted from a learned relational graph, refining them to align with the format of training prompts via a fine-tuned LLM. Conversely, the second branch rewrites the naive prompt using a pre-trained LLM following a well-defined instruction set. Extensive experiments demonstrate that RAPO can effectively enhance both the static and dynamic dimensions of generated videos, demonstrating the significance of prompt optimization for user-provided prompts. Project website: \href{https://whynothaha.github.io/Prompt_optimizer/RAPO.html}{GitHub}.
- Abstract(参考訳): 大規模データセットに基づいてトレーニングされたテキスト・ツー・ビデオ(T2V)生成モデルの進化は、大きな進歩をみせている。
しかし、入力プロンプトに対するT2V生成モデルの感度は、生成結果に影響を与えるプロンプトデザインの重要な役割を浮き彫りにする。
従来の研究は、ユーザが提供するプロンプトをトレーニングプロンプトの分布に合わせるために、主にLarge Language Models (LLMs) に依存していたが、プロンプトボキャブラリや文構造ニュアンスを含む調整されたガイダンスは存在しなかった。
この目的のために、新規な \textbf{R}etrieval-\textbf{A}ugmented \textbf{P}rompt \textbf{O}ptimization framework である \textbf{RAPO} を紹介する。
LLM生成プロンプトによって生じる潜在的な不正確さと曖昧な詳細に対処する。
RAPO は2つの最適化ブランチを通じてナイーブプロンプトを洗練し、T2V 生成において優れたプロンプトを選択する。
第1ブランチは、学習したリレーショナルグラフから抽出された多様な修飾子をユーザプロンプトに拡張し、微調整されたLLMを介してトレーニングプロンプトのフォーマットに適合するように精製する。
逆に、第2のブランチは、適切に定義された命令セットに従って、事前訓練されたLLMを使用して、ナイーブプロンプトを書き換える。
広汎な実験により、RAPOは生成されたビデオの静的次元と動的次元の両方を効果的に拡張し、ユーザが提供するプロンプトに対するプロンプト最適化の重要性を示す。
プロジェクトウェブサイト: \href{https://whynothaha.github.io/Prompt_optimizer/RAPO.html}{GitHub}
関連論文リスト
- IPO: Interpretable Prompt Optimization for Vision-Language Models [40.83071220530289]
本稿では,シンプルだが解釈可能なプロンプト(IPO)を紹介する。
IPOは大規模言語モデル(LLM)を使用してテキストプロンプトを動的に生成する。
画像記述を生成することで、視覚的内容の条件付けに大型マルチモーダルモデル(LMM)を組み込む。
論文 参考訳(メタデータ) (2024-10-20T14:10:22Z) - Mixture of Prompt Learning for Vision Language Models [12.828490399811376]
ルーティングモジュールを組み込んだソフトプロンプト学習手法の混合を提案する。
このモジュールはデータセットのさまざまなスタイルをキャプチャし、インスタンス毎に最も適切なプロンプトを動的に選択することができる。
また、意味的にグループ化されたテキストレベルの監視を実装し、各ソフトプロンプトを、そのグループから手動で設計されたテンプレートのトークン埋め込みで初期化する。
論文 参考訳(メタデータ) (2024-09-18T14:25:02Z) - Revisiting Prompt Pretraining of Vision-Language Models [13.888505919946578]
本稿では、RPP(Revisiting Prompt Pretraining)と呼ばれる一般的なフレームワークを提案する。
RPPは、フィッティングと一般化能力の改善を、迅速な構造と迅速な監督という2つの側面から目標としている。
また,事前訓練されたコントラスト言語画像事前学習(CLIP)教師モデルによって提供されるゼロショット確率予測から得られたソフトラベルを利用する。
論文 参考訳(メタデータ) (2024-09-10T02:36:13Z) - AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs [51.217126257318924]
本稿では,AdvPrompterと呼ばれる新たな大規模言語モデルを用いて,人間可読な逆数プロンプトを数秒で生成する手法を提案する。
我々は、ターゲットLLMの勾配にアクセスする必要がない新しいアルゴリズムを用いてAdvPrompterを訓練する。
訓練されたAdvPrompterは、TargetLLMを誘引して有害な応答を与えるように、意味を変えずに入力命令を無効にする接尾辞を生成する。
論文 参考訳(メタデータ) (2024-04-21T22:18:13Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - Learning to Rewrite Prompts for Personalized Text Generation [27.50476377270294]
パーソナライズされたテキスト生成のためのプロンプトを自動的に修正する新しい手法を提案する。
提案手法は、パーソナライズされた生成のための最先端のマルチステージフレームワークによって生成された初期プロンプトを取り込み、いくつかの重要なコンポーネントを書き換える。
書き直しプロンプトの詳細な分析は、人間の読みやすいだけでなく、手作業による手作業による書き直しも可能であることを示している。
論文 参考訳(メタデータ) (2023-09-29T21:15:49Z) - Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-08T06:51:15Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。