論文の概要: HuViDPO:Enhancing Video Generation through Direct Preference Optimization for Human-Centric Alignment
- arxiv url: http://arxiv.org/abs/2502.01690v1
- Date: Sun, 02 Feb 2025 16:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:13.261039
- Title: HuViDPO:Enhancing Video Generation through Direct Preference Optimization for Human-Centric Alignment
- Title(参考訳): HuViDPO:人間中心アライメントの直接選好最適化による映像生成の強化
- Authors: Lifan Jiang, Boxi Wu, Jiahui Zhang, Xiaotong Guan, Shuang Chen,
- Abstract要約: 本稿では,テキスト・ツー・ビデオ(T2V)タスクにDPO(Direct Preference Optimization)の戦略を導入する。
既存のT2V生成手法では、人間の好みで生成されたビデオのアライメントをガイドする、正確な損失関数を備えた十分に整形されたパイプラインが欠如している。
- 参考スコア(独自算出の注目度): 13.320911720001277
- License:
- Abstract: With the rapid development of AIGC technology, significant progress has been made in diffusion model-based technologies for text-to-image (T2I) and text-to-video (T2V). In recent years, a few studies have introduced the strategy of Direct Preference Optimization (DPO) into T2I tasks, significantly enhancing human preferences in generated images. However, existing T2V generation methods lack a well-formed pipeline with exact loss function to guide the alignment of generated videos with human preferences using DPO strategies. Additionally, challenges such as the scarcity of paired video preference data hinder effective model training. At the same time, the lack of training datasets poses a risk of insufficient flexibility and poor video generation quality in the generated videos. Based on those problems, our work proposes three targeted solutions in sequence. 1) Our work is the first to introduce the DPO strategy into the T2V tasks. By deriving a carefully structured loss function, we utilize human feedback to align video generation with human preferences. We refer to this new method as HuViDPO. 2) Our work constructs small-scale human preference datasets for each action category and fine-tune this model, improving the aesthetic quality of the generated videos while reducing training costs. 3) We adopt a First-Frame-Conditioned strategy, leveraging the rich in formation from the first frame to guide the generation of subsequent frames, enhancing flexibility in video generation. At the same time, we employ a SparseCausal Attention mechanism to enhance the quality of the generated videos.More details and examples can be accessed on our website: https://tankowa.github.io/HuViDPO. github.io/.
- Abstract(参考訳): AIGC技術の急速な発展に伴い、テキスト・トゥ・イメージ(T2I)とテキスト・トゥ・ビデオ(T2V)の拡散モデルに基づく技術において、大きな進歩が見られた。
近年、T2IタスクにDPO(Direct Preference Optimization)の戦略を導入し、生成画像における人間の嗜好を著しく向上させている研究がいくつかある。
しかし、既存のT2V生成手法では、DPO戦略を用いて生成したビデオと人間の好みのアライメントを導くための、正確な損失関数を備えた十分に整形されたパイプラインが欠如している。
さらに、ペアのビデオ嗜好データの不足などの課題は、効果的なモデルトレーニングを妨げる。
同時に、トレーニングデータセットの欠如は、生成されたビデオの柔軟性とビデオ生成品質の低下のリスクをもたらす。
これらの問題に基づいて,本研究は3つの目標解を連続的に提案する。
1)本研究は,初めてT2VタスクにDPO戦略を導入するものである。
注意深く構造化された損失関数を導出することにより、人間のフィードバックを利用して映像生成を人間の好みに合わせる。
この新しい手法をHuViDPOと呼ぶ。
2)本研究は,アクションカテゴリごとに小規模な人為的嗜好データセットを構築し,このモデルを微調整し,トレーニングコストを低減しつつ,生成されたビデオの美的品質を向上させる。
3)第1フレーム構成戦略を採用し,第1フレームからのリッチな形成を活用し,その後のフレーム生成をガイドし,映像生成の柔軟性を向上させる。
同時に、生成されたビデオの品質を高めるためにスパース因果注意機構を使用します。詳細と例は、我々のWebサイト(https://tankowa.github.io/HuViDPO)からアクセスできます。
github.io/
関連論文リスト
- Improving Video Generation with Human Feedback [81.48120703718774]
ビデオ生成は大きな進歩を遂げているが、動画とプロンプト間の不規則な動きや不一致といった問題が続いている。
我々は、人間のフィードバックを利用してこれらの問題を緩和し、ビデオ生成モデルを洗練する体系的なパイプラインを開発する。
多次元ビデオ報酬モデルであるVideoRewardを導入し、アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z) - OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization [30.6130504613716]
本稿では,ビデオ拡散モデルに特化した嗜好学習手法であるOnlineVPOを紹介する。
OnlineVPOは、ビデオ報酬モデルを使用して、簡潔なビデオフィードバックをオンザフライで提供することにより、効率的かつ効率的な選好ガイダンスを提供する。
論文 参考訳(メタデータ) (2024-12-19T18:34:50Z) - OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation [27.516068877910254]
大規模で高品質な人中心ビデオデータセットOpenHumanVidを紹介する。
まず、大規模で高品質なデータセットを組み込むことによって、生成された人間のビデオの評価基準を大幅に強化する。
第二に、高品質のビデオ出力を生成するためには、人間の外見、人間の動き、顔の動きとテキストの効果的なアライメントが不可欠である。
論文 参考訳(メタデータ) (2024-11-28T07:01:06Z) - T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。
ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T05:46:17Z) - ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation [37.05422543076405]
Image-to-Video(I2V)生成は、初期フレーム(テキストプロンプトの他)を使用してビデオシーケンスを作成することを目的としている。
既存の方法はしばしば、第1フレームから主題、背景、スタイルの整合性を維持するのに苦労する。
本稿では,I2V生成における視覚的一貫性を高める拡散法であるConsistI2Vを提案する。
論文 参考訳(メタデータ) (2024-02-06T19:08:18Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。