論文の概要: Mind the Generative Details: Direct Localized Detail Preference Optimization for Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2601.04068v1
- Date: Wed, 07 Jan 2026 16:32:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.215197
- Title: Mind the Generative Details: Direct Localized Detail Preference Optimization for Video Diffusion Models
- Title(参考訳): 生成の詳細を意識する:ビデオ拡散モデルにおける直接局所的詳細参照最適化
- Authors: Zitong Huang, Kaidong Zhang, Yukang Ding, Chao Gao, Rui Ding, Ying Chen, Wangmeng Zuo,
- Abstract要約: LocalDPOは、ビデオ拡散モデルと人間の好みを一致させる新しいフレームワークを構築している。
そこで我々は,LocalDPOがビデオの忠実度,時間的コヒーレンス,人間の嗜好スコアを,他のポストトレーニングアプローチよりも一貫して改善することを示した。
- 参考スコア(独自算出の注目度): 65.16788152626499
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Aligning text-to-video diffusion models with human preferences is crucial for generating high-quality videos. Existing Direct Preference Otimization (DPO) methods rely on multi-sample ranking and task-specific critic models, which is inefficient and often yields ambiguous global supervision. To address these limitations, we propose LocalDPO, a novel post-training framework that constructs localized preference pairs from real videos and optimizes alignment at the spatio-temporal region level. We design an automated pipeline to efficiently collect preference pair data that generates preference pairs with a single inference per prompt, eliminating the need for external critic models or manual annotation. Specifically, we treat high-quality real videos as positive samples and generate corresponding negatives by locally corrupting them with random spatio-temporal masks and restoring only the masked regions using the frozen base model. During training, we introduce a region-aware DPO loss that restricts preference learning to corrupted areas for rapid convergence. Experiments on Wan2.1 and CogVideoX demonstrate that LocalDPO consistently improves video fidelity, temporal coherence and human preference scores over other post-training approaches, establishing a more efficient and fine-grained paradigm for video generator alignment.
- Abstract(参考訳): 高品質なビデオを生成するためには、人間の好みでテキストとビデオの拡散モデルを調整することが不可欠である。
既存のDPO(Direct Preference Otimization)手法は、マルチサンプルのランキングとタスク固有の批判モデルに依存している。
これらの制約に対処するため,実ビデオから局所化選好ペアを構築し,時空間レベルでのアライメントを最適化する新しいポストトレーニングフレームワークであるLocalDPOを提案する。
自動パイプラインを設計し、プロンプト毎に1つの推論で選好ペアを生成する選好ペアデータを効率よく収集し、外部の批評家モデルや手動のアノテーションを必要としないようにした。
具体的には、高品質な実動画を正のサンプルとして扱い、ランダムな時空間マスクで局所的に劣化させ、凍結ベースモデルを用いてマスク領域のみを復元することにより、対応する負を生成する。
トレーニング中は、高速収束のために、優先学習を破損した領域に制限する領域対応のDPO損失を導入する。
Wan2.1とCagVideoXの実験では、LocalDPOは他のトレーニング後のアプローチよりもビデオの忠実度、時間的コヒーレンス、人間の嗜好スコアを一貫して改善し、ビデオジェネレータアライメントのためのより効率的できめ細かいパラダイムを確立している。
関連論文リスト
- DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models [92.36630583208647]
本稿では,3つのコントリビューションによって欠点に対処するDenseDPOを紹介する。
まず,地上の真理ビデオの破損したコピーをデノベートすることで,DPO用のビデオペアを作成する。
第二に、得られた時間的アライメントを利用して、クリップ全体よりも短いセグメントにラベルを付けることで、より密でより正確な学習信号が得られる。
論文 参考訳(メタデータ) (2025-06-04T03:06:08Z) - Smoothed Preference Optimization via ReNoise Inversion for Aligning Diffusion Models with Varied Human Preferences [13.588231827053923]
直接選好最適化(DPO)は、テキスト・ツー・イメージ(T2I)生成モデルと、ペアの選好データを用いた人間の選好を一致させる。
本稿では, DPO の目的を改善するために, 好み分布をモデル化する新しい手法である SmPO-Diffusion を提案する。
提案手法は,既存手法における過度な最適化と客観的なミスアライメントの問題を効果的に軽減する。
論文 参考訳(メタデータ) (2025-06-03T09:47:22Z) - SynPO: Synergizing Descriptiveness and Preference Optimization for Video Detailed Captioning [69.34975070207763]
我々は、選好学習を活用し、細粒度ビデオキャプションにおける視覚言語モデルの性能を向上させる。
本稿では,DPOとその変種に対する大きな優位性を示す新しい最適化手法を提案する。
その結果、SynPOはトレーニング効率を20%向上しつつ、DPOの変種を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-01T04:51:49Z) - Discriminator-Free Direct Preference Optimization for Video Diffusion [25.304451979598863]
本稿では,オリジナル映像を勝利事例として用い,編集版を負け事例として用いた差別化のないビデオDPOフレームワークを提案する。
実動画とモデル生成ビデオが異なる分布に従えば,理論的にフレームワークの有効性を証明できる。
論文 参考訳(メタデータ) (2025-04-11T13:55:48Z) - Temporal Preference Optimization for Long-Form Video Understanding [63.196246578583136]
TPO(Temporal Preference Optimization)は、ビデオLMMの時間的グラウンド機能を高めるために設計された、新しいポストトレーニングフレームワークである。
TPOは、手動の注釈付きデータへの依存を減らしながら、時間的理解を著しく向上させる。
LLaVA-Video-TPOは、Video-MMEベンチマークでトップ7Bモデルとしての地位を確立している。
論文 参考訳(メタデータ) (2025-01-23T18:58:03Z) - Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM [54.2320450886902]
テキスト・ビデオ・モデルは高品質のテキスト・ビデオ・ペアを最適化することで顕著な進歩を遂げた。
現在の精製の自動化手法は、モダリティ・一貫性、コスト分散、モデルウナウエアといった課題に直面する。
Prompt-A-Videoは、特定のビデオ拡散モデルに合わせた、ビデオ中心、労働自由、調整されたプロンプトの製作に優れる。
論文 参考訳(メタデータ) (2024-12-19T18:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。