論文の概要: VideoDPO: Omni-Preference Alignment for Video Diffusion Generation
- arxiv url: http://arxiv.org/abs/2412.14167v1
- Date: Wed, 18 Dec 2024 18:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:46.422910
- Title: VideoDPO: Omni-Preference Alignment for Video Diffusion Generation
- Title(参考訳): VideoDPO:ビデオ拡散生成のためのOmni-Preferenceアライメント
- Authors: Runtao Liu, Haoyu Wu, Zheng Ziqiang, Chen Wei, Yingqing He, Renjie Pi, Qifeng Chen,
- Abstract要約: DPO(Direct Preference Optimization)は、言語と画像生成において大幅に改善されている。
本稿では,いくつかの重要な調整を施したビデオDPOパイプラインを提案する。
本実験は視覚的品質とセマンティックアライメントの両面で大幅に改善されたことを示す。
- 参考スコア(独自算出の注目度): 48.36302380755874
- License:
- Abstract: Recent progress in generative diffusion models has greatly advanced text-to-video generation. While text-to-video models trained on large-scale, diverse datasets can produce varied outputs, these generations often deviate from user preferences, highlighting the need for preference alignment on pre-trained models. Although Direct Preference Optimization (DPO) has demonstrated significant improvements in language and image generation, we pioneer its adaptation to video diffusion models and propose a VideoDPO pipeline by making several key adjustments. Unlike previous image alignment methods that focus solely on either (i) visual quality or (ii) semantic alignment between text and videos, we comprehensively consider both dimensions and construct a preference score accordingly, which we term the OmniScore. We design a pipeline to automatically collect preference pair data based on the proposed OmniScore and discover that re-weighting these pairs based on the score significantly impacts overall preference alignment. Our experiments demonstrate substantial improvements in both visual quality and semantic alignment, ensuring that no preference aspect is neglected. Code and data will be shared at https://videodpo.github.io/.
- Abstract(参考訳): 生成拡散モデルの最近の進歩は、テキスト・ビデオ生成に大きな進歩をもたらした。
大規模で多様なデータセットに基づいてトレーニングされたテキストからビデオのモデルは、さまざまなアウトプットを生成することができるが、これらの世代は、しばしばユーザの好みから逸脱し、事前訓練されたモデルに対する好みのアライメントの必要性を強調している。
直接選好最適化(DPO)は言語と画像生成の大幅な改善を実証しているが,ビデオ拡散モデルへの適応の先駆けとして,いくつかの重要な調整を施したビデオDPOパイプラインを提案する。
どちらかにのみフォーカスする以前の画像アライメント方法とは違って
i)視覚的品質、または
2)テキストとビデオ間のセマンティックアライメントを包括的に検討し,OmniScoreとよばれる選好スコアを構築した。
提案したOmniScoreに基づいて、選好ペアデータを自動的に収集するパイプラインを設計し、そのスコアに基づいてこれらのペアを再重み付けすることで、全体的な選好アライメントに大きな影響を与えることを発見した。
本実験は,視覚的品質とセマンティックアライメントの両面で大幅に改善され,嗜好的側面が無視されることが保証された。
コードとデータはhttps://videodpo.github.io/.com/で共有される。
関連論文リスト
- DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization [75.55167570591063]
人間の好みを3D生成プロセスに統合する最適化ベースのフレームワークであるDreamDPOを提案する。
DreamDPOは、きめ細かい制御性を実現しながら、正確なポイントワイドの品質評価への依存を減らす。
実験により、DreamDPOは競争力を発揮し、高品質で制御可能な3Dコンテンツを提供することが示された。
論文 参考訳(メタデータ) (2025-02-05T11:03:08Z) - IPO: Iterative Preference Optimization for Text-to-Video Generation [15.763879468841818]
人間のフィードバックを取り入れて生成した映像の質を高めるための反復選好最適化手法を提案する。
IPOは、直接選好最適化(Direct Preference Optimization)やポイントワイズスコア(point-wise score)のように、ビデオ世代をペアワイズランキングで正当化する批判モデルを活用する。
さらに、IPOは批判モデルにマルチモダリティの大規模言語モデルを導入し、リトレーニングや緩和を必要とせず、自動的に好みラベルを割り当てることを可能にする。
論文 参考訳(メタデータ) (2025-02-04T08:14:34Z) - Inference-Time Text-to-Video Alignment with Diffusion Latent Beam Search [23.3627657867351]
アライメント問題に大きな注目を集めており、コンテンツの良さに基づいて拡散モデルの出力を操縦する。
本稿では,アライメント報酬を最大化するために,より優れた拡散潜時を選択できるルックアヘッド推定器を用いた拡散潜時ビーム探索を提案する。
本手法は,モデルパラメータを更新することなく,キャリブレーションされた報酬に基づいて知覚品質を向上させることを実証する。
論文 参考訳(メタデータ) (2025-01-31T16:09:30Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM [54.2320450886902]
テキスト・ビデオ・モデルは高品質のテキスト・ビデオ・ペアを最適化することで顕著な進歩を遂げた。
現在の精製の自動化手法は、モダリティ・一貫性、コスト分散、モデルウナウエアといった課題に直面する。
Prompt-A-Videoは、特定のビデオ拡散モデルに合わせた、ビデオ中心、労働自由、調整されたプロンプトの製作に優れる。
論文 参考訳(メタデータ) (2024-12-19T18:32:21Z) - Towards Improved Preference Optimization Pipeline: from Data Generation to Budget-Controlled Regularization [14.50339880957898]
我々は、嗜好データ生成と正規化の訓練技術について、より深く検討することで、嗜好最適化パイプラインの改善を目指している。
選好データ生成のために、ペアワイズ比較信号を用いて完了の選好ランキングを導出する反復的なペアワイズランキング機構を提案する。
正規化のトレーニングでは、LLMが好むサンプルの確率をわずかに減少させると、好みの最適化がよりよく収束する傾向が観察される。
論文 参考訳(メタデータ) (2024-11-07T23:03:11Z) - Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - VideoCon: Robust Video-Language Alignment via Contrast Captions [80.08882631838914]
ビデオ言語アライメントモデルは、ビデオキャプションのセマンティックなコントラスト変化に対して堅牢ではない。
私たちの研究は、エンティティの置換やアクション、イベント順序の反転など、幅広いコントラストのミスアライメントを特定します。
本モデルは,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
論文 参考訳(メタデータ) (2023-11-15T19:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。