論文の概要: Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation
- arxiv url: http://arxiv.org/abs/2511.01450v2
- Date: Wed, 05 Nov 2025 16:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 13:56:26.176221
- Title: Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation
- Title(参考訳): Reg-DPO:GTペアによるビデオ生成改善のためのSFT正規化直接参照最適化
- Authors: Jie Du, Xinyu Gong, Qingshan Tan, Wen Li, Yangming Cheng, Weitao Wang, Chenlu Zhan, Suhui Wu, Hao Zhang, Jun Zhang,
- Abstract要約: GT-Pairは、実動画をポジティブとして、モデル生成動画をネガティブとして、高品質な選好ペアを構築する。
また、SFT損失を正規化用語として組み込んだReg-DPOをDPO損失に組み込み、トレーニング安定性と生成精度を高める。
- 参考スコア(独自算出の注目度): 19.119239411510936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have identified Direct Preference Optimization (DPO) as an efficient and reward-free approach to improving video generation quality. However, existing methods largely follow image-domain paradigms and are mainly developed on small-scale models (approximately 2B parameters), limiting their ability to address the unique challenges of video tasks, such as costly data construction, unstable training, and heavy memory consumption. To overcome these limitations, we introduce a GT-Pair that automatically builds high-quality preference pairs by using real videos as positives and model-generated videos as negatives, eliminating the need for any external annotation. We further present Reg-DPO, which incorporates the SFT loss as a regularization term into the DPO loss to enhance training stability and generation fidelity. Additionally, by combining the FSDP framework with multiple memory optimization techniques, our approach achieves nearly three times higher training capacity than using FSDP alone. Extensive experiments on both I2V and T2V tasks across multiple datasets demonstrate that our method consistently outperforms existing approaches, delivering superior video generation quality.
- Abstract(参考訳): 近年の研究では、DPO(Direct Preference Optimization)は、映像生成品質を改善するための効率的で報酬のないアプローチであると見なされている。
しかし、既存の手法は主に画像ドメインのパラダイムに従っており、主に小型モデル(約2Bパラメータ)で開発されており、コストのかかるデータ構築、不安定なトレーニング、重いメモリ消費といった、ビデオタスクの固有の課題に対処する能力を制限する。
これらの制約を克服するため,実動画をポジティブとして,モデル生成動画をネガティブとして,高品質な選好ペアを自動構築するGT-Pairを導入し,外部アノテーションの必要性を排除した。
また、SFT損失を正規化用語として組み込んだReg-DPOをDPO損失に組み込み、トレーニング安定性と生成精度を高める。
さらに,FSDPフレームワークを複数のメモリ最適化手法と組み合わせることで,FSDP単独で使用する場合に比べて,トレーニング能力が約3倍に向上する。
複数のデータセットにまたがるI2VタスクとT2Vタスクの広範な実験により、我々の手法は既存の手法より一貫して優れており、より優れた映像生成品質を提供することが示された。
関連論文リスト
- DAPE: Dual-Stage Parameter-Efficient Fine-Tuning for Consistent Video Editing with Diffusion Models [1.972901110298768]
高品質で費用対効果の高い2段階パラメーター効率なビデオ編集のための微調整フレームワークであるDAPEを提案する。
最初の段階では、生成したビデオの時間的一貫性を高めるための効率的なノルムチューニング法を設計する。
第2ステージでは視覚的品質を改善するための視覚フレンドリなアダプタが導入されている。
論文 参考訳(メタデータ) (2025-05-11T17:08:50Z) - VPO: Aligning Text-to-Video Generation Models with Prompt Optimization [105.1387607806783]
ビデオ生成モデルは、通常、高度に詳細で慎重に記述されたテキストとビデオのペアで訓練される。
VPOは3つの基本原則(無害性、正確性、有用性)に基づいてプロンプトを最適化する、原則化されたフレームワークです。
実験の結果,VPOは基準法に比べて安全性,アライメント,画質を著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-03-26T12:28:20Z) - TEMPLE:Temporal Preference Learning of Video LLMs via Difficulty Scheduling and Pre-SFT Alignment [48.94844127553743]
TEMPLEはビデオ大言語モデルの時間的推論能力を高めるための体系的なフレームワークである。
提案手法は,比較的小さな自己生成DPOデータを用いて,複数のベンチマークでビデオLLM性能を継続的に改善する。
我々のTEMPLEは、SFTベースの手法をスケーラブルかつ効率的に補完するものであり、信頼性の高いビデオLLMを開発するための道を開くものである。
論文 参考訳(メタデータ) (2025-03-21T08:00:29Z) - IPO: Iterative Preference Optimization for Text-to-Video Generation [10.625127393884462]
人間のフィードバックを取り入れて生成した映像の質を高めるための反復選好最適化手法を提案する。
IPOは、直接選好最適化(Direct Preference Optimization)やポイントワイズスコア(point-wise score)のように、ビデオ世代をペアワイズランキングで正当化する批判モデルを活用する。
さらに、IPOは批判モデルにマルチモダリティの大規模言語モデルを導入し、リトレーニングや緩和を必要とせず、自動的に好みラベルを割り当てることを可能にする。
論文 参考訳(メタデータ) (2025-02-04T08:14:34Z) - Temporal Preference Optimization for Long-Form Video Understanding [63.196246578583136]
TPO(Temporal Preference Optimization)は、ビデオLMMの時間的グラウンド機能を高めるために設計された、新しいポストトレーニングフレームワークである。
TPOは、手動の注釈付きデータへの依存を減らしながら、時間的理解を著しく向上させる。
LLaVA-Video-TPOは、Video-MMEベンチマークでトップ7Bモデルとしての地位を確立している。
論文 参考訳(メタデータ) (2025-01-23T18:58:03Z) - Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM [54.2320450886902]
テキスト・ビデオ・モデルは高品質のテキスト・ビデオ・ペアを最適化することで顕著な進歩を遂げた。
現在の精製の自動化手法は、モダリティ・一貫性、コスト分散、モデルウナウエアといった課題に直面する。
Prompt-A-Videoは、特定のビデオ拡散モデルに合わせた、ビデオ中心、労働自由、調整されたプロンプトの製作に優れる。
論文 参考訳(メタデータ) (2024-12-19T18:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。