論文の概要: IPO: Iterative Preference Optimization for Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2502.02088v1
- Date: Tue, 04 Feb 2025 08:14:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:20.448875
- Title: IPO: Iterative Preference Optimization for Text-to-Video Generation
- Title(参考訳): IPO: テキスト・ビデオ・ジェネレーションの反復的優先最適化
- Authors: Xiaomeng Yang, Zhiyu Tan, Xuecheng Nie, Hao Li,
- Abstract要約: 人間のフィードバックを取り入れて生成した映像の質を高めるための反復選好最適化手法を提案する。
IPOは、直接選好最適化(Direct Preference Optimization)やポイントワイズスコア(point-wise score)のように、ビデオ世代をペアワイズランキングで正当化する批判モデルを活用する。
さらに、IPOは批判モデルにマルチモダリティの大規模言語モデルを導入し、リトレーニングや緩和を必要とせず、自動的に好みラベルを割り当てることを可能にする。
- 参考スコア(独自算出の注目度): 15.763879468841818
- License:
- Abstract: Video foundation models have achieved significant advancement with the help of network upgrade as well as model scale-up. However, they are still hard to meet requirements of applications due to unsatisfied generation quality. To solve this problem, we propose to align video foundation models with human preferences from the perspective of post-training in this paper. Consequently, we introduce an Iterative Preference Optimization strategy to enhance generated video quality by incorporating human feedback. Specifically, IPO exploits a critic model to justify video generations for pairwise ranking as in Direct Preference Optimization or point-wise scoring as in Kahneman-Tversky Optimization. Given this, IPO optimizes video foundation models with guidance of signals from preference feedback, which helps improve generated video quality in subject consistency, motion smoothness and aesthetic quality, etc. In addition, IPO incorporates the critic model with the multi-modality large language model, which enables it to automatically assign preference labels without need of retraining or relabeling. In this way, IPO can efficiently perform multi-round preference optimization in an iterative manner, without the need of tediously manual labeling. Comprehensive experiments demonstrate that the proposed IPO can effectively improve the video generation quality of a pretrained model and help a model with only 2B parameters surpass the one with 5B parameters. Besides, IPO achieves new state-of-the-art performance on VBench benchmark. We will release our source codes, models as well as dataset to advance future research and applications.
- Abstract(参考訳): ビデオファウンデーションモデルは、ネットワークアップグレードとモデルスケールアップの助けを借りて、大きな進歩を遂げた。
しかし、不満足な世代品質のため、アプリケーションの要件を満たすことは依然として困難である。
この問題を解決するために,本稿では,ポストトレーニングの観点から,ビデオ基礎モデルと人間の嗜好を一致させることを提案する。
そこで本研究では,人間のフィードバックを取り入れた映像品質向上のための反復選好最適化手法を提案する。
具体的には、直接選好最適化(Direct Preference Optimization)や、Kahneman-Tversky Optimization(Kahneman-Tversky Optimization)のようなポイントワイドスコア(pointwise score)において、ビデオ世代をペアワイズランキングで正当化する批判モデルを利用している。
これを踏まえて、IPOはビデオファンデーションモデルを最適化し、好みのフィードバックからのシグナルを誘導し、被験者の一貫性、動きの滑らかさ、美的品質などのビデオ品質を改善する。
さらに、IPOは批判モデルにマルチモダリティの大規模言語モデルを導入し、リトレーニングや緩和を必要とせず、自動的に好みラベルを割り当てることを可能にする。
このようにしてIPOは、面倒な手作業によるラベリングを必要とせずに、反復的に複数ラウンドの優先最適化を効率的に行うことができる。
総合的な実験により、提案されたIPOは、事前訓練されたモデルの映像生成品質を効果的に改善し、わずか2Bパラメータのモデルが5Bパラメータのモデルを上回るのに役立つことが示されている。
さらに、IPOはVBenchベンチマークで最先端のパフォーマンスを達成した。
私たちは、将来の研究とアプリケーションを進めるために、ソースコード、モデル、およびデータセットをリリースします。
関連論文リスト
- DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization [75.55167570591063]
人間の好みを3D生成プロセスに統合する最適化ベースのフレームワークであるDreamDPOを提案する。
DreamDPOは、きめ細かい制御性を実現しながら、正確なポイントワイドの品質評価への依存を減らす。
実験により、DreamDPOは競争力を発揮し、高品質で制御可能な3Dコンテンツを提供することが示された。
論文 参考訳(メタデータ) (2025-02-05T11:03:08Z) - Improving Video Generation with Human Feedback [81.48120703718774]
ビデオ生成は大きな進歩を遂げているが、動画とプロンプト間の不規則な動きや不一致といった問題が続いている。
我々は、人間のフィードバックを利用してこれらの問題を緩和し、ビデオ生成モデルを洗練する体系的なパイプラインを開発する。
多次元ビデオ報酬モデルであるVideoRewardを導入し、アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z) - OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization [30.6130504613716]
本稿では,ビデオ拡散モデルに特化した嗜好学習手法であるOnlineVPOを紹介する。
OnlineVPOは、ビデオ報酬モデルを使用して、簡潔なビデオフィードバックをオンザフライで提供することにより、効率的かつ効率的な選好ガイダンスを提供する。
論文 参考訳(メタデータ) (2024-12-19T18:34:50Z) - Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM [54.2320450886902]
テキスト・ビデオ・モデルは高品質のテキスト・ビデオ・ペアを最適化することで顕著な進歩を遂げた。
現在の精製の自動化手法は、モダリティ・一貫性、コスト分散、モデルウナウエアといった課題に直面する。
Prompt-A-Videoは、特定のビデオ拡散モデルに合わせた、ビデオ中心、労働自由、調整されたプロンプトの製作に優れる。
論文 参考訳(メタデータ) (2024-12-19T18:32:21Z) - VideoDPO: Omni-Preference Alignment for Video Diffusion Generation [48.36302380755874]
DPO(Direct Preference Optimization)は、言語と画像生成において大幅に改善されている。
本稿では,いくつかの重要な調整を施したビデオDPOパイプラインを提案する。
本実験は視覚的品質とセマンティックアライメントの両面で大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2024-12-18T18:59:49Z) - MPPO: Multi Pair-wise Preference Optimization for LLMs with Arbitrary Negative Samples [22.521746860874305]
本研究では,モデル応答の平均確率を利用して報酬関数に適合するMPPOアルゴリズムを提案する。
Pair-wise、Pair-wise、List-wiseの実装の比較により、Pair-wiseアプローチが最高のパフォーマンスを実現することがわかった。
実験の結果、MPPOは様々なベンチマークで優れた性能を示した。
論文 参考訳(メタデータ) (2024-12-13T14:18:58Z) - Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - ISR-DPO: Aligning Large Multimodal Models for Videos by Iterative Self-Retrospective DPO [36.69910114305134]
我々は、優先モデルを強化するために、反復自己ふりかえり直接選好最適化(ISR-DPO)を提案する。
ISR-DPOは、情報的ビデオ領域に対する自己判断の焦点を強化する。
広範な経験的評価では、ISR-DPOは芸術の状態を著しく上回る。
論文 参考訳(メタデータ) (2024-06-17T07:33:30Z) - Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward [118.65089648651308]
本稿では,映像コンテンツのプロキシとして詳細な動画キャプションを利用する新しいフレームワークを提案する。
本稿では,DPOによる報酬の調整により,ビデオ質問応答(QA)タスクにおけるビデオLMMの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-04-01T17:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。