論文の概要: DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.03517v1
- Date: Wed, 04 Jun 2025 03:06:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.122067
- Title: DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models
- Title(参考訳): DenseDPO:ビデオ拡散モデルのための細粒度時間優先最適化
- Authors: Ziyi Wu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Ashkan Mirzaei, Igor Gilitschenski, Sergey Tulyakov, Aliaksandr Siarohin,
- Abstract要約: 本稿では,3つのコントリビューションによって欠点に対処するDenseDPOを紹介する。
まず,地上の真理ビデオの破損したコピーをデノベートすることで,DPO用のビデオペアを作成する。
第二に、得られた時間的アライメントを利用して、クリップ全体よりも短いセグメントにラベルを付けることで、より密でより正確な学習信号が得られる。
- 参考スコア(独自算出の注目度): 60.716734545171114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) has recently been applied as a post-training technique for text-to-video diffusion models. To obtain training data, annotators are asked to provide preferences between two videos generated from independent noise. However, this approach prohibits fine-grained comparisons, and we point out that it biases the annotators towards low-motion clips as they often contain fewer visual artifacts. In this work, we introduce DenseDPO, a method that addresses these shortcomings by making three contributions. First, we create each video pair for DPO by denoising corrupted copies of a ground truth video. This results in aligned pairs with similar motion structures while differing in local details, effectively neutralizing the motion bias. Second, we leverage the resulting temporal alignment to label preferences on short segments rather than entire clips, yielding a denser and more precise learning signal. With only one-third of the labeled data, DenseDPO greatly improves motion generation over vanilla DPO, while matching it in text alignment, visual quality, and temporal consistency. Finally, we show that DenseDPO unlocks automatic preference annotation using off-the-shelf Vision Language Models (VLMs): GPT accurately predicts segment-level preferences similar to task-specifically fine-tuned video reward models, and DenseDPO trained on these labels achieves performance close to using human labels.
- Abstract(参考訳): DPO(Direct Preference Optimization)は、最近、テキスト・ビデオ拡散モデルのためのポストトレーニング手法として応用されている。
トレーニングデータを得るために、アノテータは独立したノイズから生成された2つのビデオ間の好みを提供するよう依頼される。
しかし,本手法では細かな比較が禁止されており,視覚的アーティファクトが少ないため,アノテータをローモーションクリップに偏りがあることが指摘されている。
本稿では,3つのコントリビューションによってこれらの欠点に対処するDenseDPOを紹介する。
まず,地上の真理ビデオの破損したコピーをデノベートすることで,DPO用のビデオペアを作成する。
この結果、局所的な詳細では異なるが、同様の運動構造を持つ配向対が成立し、運動バイアスを効果的に中和する。
第二に、得られた時間的アライメントを利用して、クリップ全体よりも短いセグメントにラベルを付けることで、より密でより正確な学習信号が得られる。
ラベル付きデータのわずか3分の1で、DenseDPOはバニラDPOの動作生成を大幅に改善し、テキストアライメント、視覚的品質、時間的一貫性でマッチングする。
最後に、DenseDPOは市販のビジョン言語モデル(VLM)を用いて自動選好アノテーションをアンロックし、GPTはタスク固有の微調整ビデオ報酬モデルと同様のセグメントレベルの選好を正確に予測し、DenseDPOで訓練されたDenseDPOは人間のラベルに近い性能を達成することを示す。
関連論文リスト
- SynPO: Synergizing Descriptiveness and Preference Optimization for Video Detailed Captioning [69.34975070207763]
我々は、選好学習を活用し、細粒度ビデオキャプションにおける視覚言語モデルの性能を向上させる。
本稿では,DPOとその変種に対する大きな優位性を示す新しい最適化手法を提案する。
その結果、SynPOはトレーニング効率を20%向上しつつ、DPOの変種を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-01T04:51:49Z) - VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models [80.92928946973026]
ビデオ階層型空間-時間的直接参照最適化のためのフレームワークであるVistaDPOを紹介する。
VistaDPOは3つの階層レベルにまたがってテキストとビデオの好みのアライメントを強化する。
Video Hallucination、Video QA、Captioningパフォーマンスタスクなどのベンチマークの実験では、VistaDPOが既存のLVMのパフォーマンスを大幅に改善していることが示されている。
論文 参考訳(メタデータ) (2025-04-17T17:39:41Z) - Discriminator-Free Direct Preference Optimization for Video Diffusion [25.304451979598863]
本稿では,オリジナル映像を勝利事例として用い,編集版を負け事例として用いた差別化のないビデオDPOフレームワークを提案する。
実動画とモデル生成ビデオが異なる分布に従えば,理論的にフレームワークの有効性を証明できる。
論文 参考訳(メタデータ) (2025-04-11T13:55:48Z) - PaMi-VDPO: Mitigating Video Hallucinations by Prompt-Aware Multi-Instance Video Preference Learning [50.81779197183613]
ビデオマルチモーダル大言語モデル(VLLM)における幻覚の低減を支援する直接選好最適化(DPO)
本稿では、嗜好アノテーションの不要なオンライン嗜好学習フレームワークであるVDPO(Video Direct Preference Optimization)を提案する。
本稿では,Prompt-aware Multi-instance Learning VDPOを提案する。
論文 参考訳(メタデータ) (2025-04-08T08:41:41Z) - Dual Caption Preference Optimization for Diffusion Models [51.223275938663235]
本稿では,2つの異なるキャプションを用いて無関係なプロンプトを緩和する手法であるDual Caption Preference Optimization (DCPO)を提案する。
実験の結果,DCPOは画像品質とプロンプトとの関係を著しく改善し,SFT_Chosen,Diffusion-DPO,MaPOを複数の指標で比較した。
論文 参考訳(メタデータ) (2025-02-09T20:34:43Z) - VideoDPO: Omni-Preference Alignment for Video Diffusion Generation [48.36302380755874]
DPO(Direct Preference Optimization)は、言語と画像生成において大幅に改善されている。
本稿では,いくつかの重要な調整を施したビデオDPOパイプラインを提案する。
本実験は視覚的品質とセマンティックアライメントの両面で大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2024-12-18T18:59:49Z) - Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization [19.327911862822262]
低ランク適応 (LoRA) を用いた高度音声視覚大言語モデル (LLM) である Video-SALMONN 2 を提案する。
そこで本稿では,DPO(directed preference optimization)を用いて最適化された映像記述の完全性と精度を評価するための新しい指標を提案する。
実験の結果、mDPOはビデオSALMONN 2のキャプション精度を大幅に向上し、グローバルとローカルのエラー率をそれぞれ40%、20%削減することがわかった。
論文 参考訳(メタデータ) (2024-10-09T08:44:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。