Fugu-MT 論文翻訳(概要): Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM

論文の概要: Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM

arxiv url: http://arxiv.org/abs/2412.15156v1
Date: Thu, 19 Dec 2024 18:32:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:16.252295
Title: Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM
Title（参考訳）: Prompt-A-Video:Preference-Aligned LLMによるビデオ拡散モデルのプロンプト
Authors: Yatai Ji, Jiacheng Zhang, Jie Wu, Shilong Zhang, Shoufa Chen, Chongjian GE, Peize Sun, Weifeng Chen, Wenqi Shao, Xuefeng Xiao, Weilin Huang, Ping Luo,
Abstract要約: テキスト・ビデオ・モデルは高品質のテキスト・ビデオ・ペアを最適化することで顕著な進歩を遂げた。現在の精製の自動化手法は、モダリティ・一貫性、コスト分散、モデルウナウエアといった課題に直面する。 Prompt-A-Videoは、特定のビデオ拡散モデルに合わせた、ビデオ中心、労働自由、調整されたプロンプトの製作に優れる。
参考スコア（独自算出の注目度）: 54.2320450886902
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-video models have made remarkable advancements through optimization on high-quality text-video pairs, where the textual prompts play a pivotal role in determining quality of output videos. However, achieving the desired output often entails multiple revisions and iterative inference to refine user-provided prompts. Current automatic methods for refining prompts encounter challenges such as Modality-Inconsistency, Cost-Discrepancy, and Model-Unaware when applied to text-to-video diffusion models. To address these problem, we introduce an LLM-based prompt adaptation framework, termed as Prompt-A-Video, which excels in crafting Video-Centric, Labor-Free and Preference-Aligned prompts tailored to specific video diffusion model. Our approach involves a meticulously crafted two-stage optimization and alignment system. Initially, we conduct a reward-guided prompt evolution pipeline to automatically create optimal prompts pool and leverage them for supervised fine-tuning (SFT) of the LLM. Then multi-dimensional rewards are employed to generate pairwise data for the SFT model, followed by the direct preference optimization (DPO) algorithm to further facilitate preference alignment. Through extensive experimentation and comparative analyses, we validate the effectiveness of Prompt-A-Video across diverse generation models, highlighting its potential to push the boundaries of video generation.
Abstract（参考訳）: テキスト・ツー・ビデオ・モデルは高品質なテキスト・ビデオ・ペアの最適化を通じて顕著な進歩を遂げており、テキスト・プロンプトは出力ビデオの品質を決定する上で重要な役割を担っている。しかし、所望の出力を達成するには、ユーザが提供するプロンプトを洗練させるために、複数のリビジョンと反復推論が必要となることが多い。現在の精製法は,テキスト・ビデオ拡散モデルに適用した場合,モダリティ・一貫性,コスト・不一致,モデル・ウナウェアといった課題に直面する。これらの問題に対処するために,ビデオ中心,労働自由,優先適応のプロンプトを制作する上で優れた,プロンプト・A・ビデオ(Prompt-A-Video)と呼ばれるLCMベースのプロンプト適応フレームワークを導入する。当社のアプローチでは、2段階最適化とアライメントを慎重に構築する。最初は報酬誘導型プロンプト進化パイプラインを用いて、最適なプロンプトプールを自動生成し、それらをLLMの教師付き微調整(SFT)に活用する。次に、SFTモデルのためのペアワイズデータを生成するために多次元報酬を用い、続いて直接選好最適化(DPO)アルゴリズムを用いて、選好アライメントをさらに容易にする。広範にわたる実験と比較分析を通じて,様々な世代モデルにおけるPrompt-A-Videoの有効性を検証し,ビデオ生成の境界を押し上げる可能性を強調した。

関連論文リスト

Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization [11.413630896037576]
多様なビデオ生成のための新しいフレームワークであるDPP-GRPOを紹介する。我々のフレームワークはプラグアンドプレイとモデル非依存であり、視覚的外観、カメラモーション、シーン構造など様々な世代にまたがる。 VBench, VideoScore, 人選好研究などの最先端のベンチマークでは, 映像の多様性が常に向上していることが示されている。
論文参考訳（メタデータ） (2025-11-25T18:59:45Z)
VPO: Aligning Text-to-Video Generation Models with Prompt Optimization [80.86205966195593]
ビデオ生成モデルは、通常、高度に詳細で慎重に記述されたテキストとビデオのペアで訓練される。 VPOは3つの基本原則(無害性、正確性、有用性)に基づいてプロンプトを最適化する、原則化されたフレームワークです。実験の結果,VPOは基準法に比べて安全性,アライメント,画質を著しく向上することがわかった。
論文参考訳（メタデータ） (2025-03-26T12:28:20Z)
TEMPLE:Temporal Preference Learning of Video LLMs via Difficulty Scheduling and Pre-SFT Alignment [48.94844127553743]
TEMPLEはビデオ大言語モデルの時間的推論能力を高めるための体系的なフレームワークである。提案手法は,比較的小さな自己生成DPOデータを用いて,複数のベンチマークでビデオLLM性能を継続的に改善する。我々のTEMPLEは、SFTベースの手法をスケーラブルかつ効率的に補完するものであり、信頼性の高いビデオLLMを開発するための道を開くものである。
論文参考訳（メタデータ） (2025-03-21T08:00:29Z)
Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文参考訳（メタデータ） (2024-11-23T12:26:52Z)
Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文参考訳（メタデータ） (2024-04-01T17:28:16Z)
Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文参考訳（メタデータ） (2024-02-06T06:27:40Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
LLM-grounded Video Diffusion Models [57.23066793349706]
ビデオ拡散モデルは、ニューラル・テンポラル・ジェネレーションのための有望なツールとして登場した。現在のモデルはプロンプトに苦しむが、しばしば制限されたり、誤った動きをする。 LLM-grounded Video Diffusion (LVD)を紹介する。以上の結果から,LVDはベース映像拡散モデルよりも有意に優れていた。
論文参考訳（メタデータ） (2023-09-29T17:54:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。