論文の概要: Discriminator-Free Direct Preference Optimization for Video Diffusion
- arxiv url: http://arxiv.org/abs/2504.08542v1
- Date: Fri, 11 Apr 2025 13:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:44.468593
- Title: Discriminator-Free Direct Preference Optimization for Video Diffusion
- Title(参考訳): ビデオ拡散のためのディスクリミネータフリー直接参照最適化
- Authors: Haoran Cheng, Qide Dong, Liang Peng, Zhizhou Sha, Weiguo Feng, Jinghui Xie, Zhao Song, Shilei Wen, Xiaofei He, Boxi Wu,
- Abstract要約: 本稿では,オリジナル映像を勝利事例として用い,編集版を負け事例として用いた差別化のないビデオDPOフレームワークを提案する。
実動画とモデル生成ビデオが異なる分布に従えば,理論的にフレームワークの有効性を証明できる。
- 参考スコア(独自算出の注目度): 25.304451979598863
- License:
- Abstract: Direct Preference Optimization (DPO), which aligns models with human preferences through win/lose data pairs, has achieved remarkable success in language and image generation. However, applying DPO to video diffusion models faces critical challenges: (1) Data inefficiency. Generating thousands of videos per DPO iteration incurs prohibitive costs; (2) Evaluation uncertainty. Human annotations suffer from subjective bias, and automated discriminators fail to detect subtle temporal artifacts like flickering or motion incoherence. To address these, we propose a discriminator-free video DPO framework that: (1) Uses original real videos as win cases and their edited versions (e.g., reversed, shuffled, or noise-corrupted clips) as lose cases; (2) Trains video diffusion models to distinguish and avoid artifacts introduced by editing. This approach eliminates the need for costly synthetic video comparisons, provides unambiguous quality signals, and enables unlimited training data expansion through simple editing operations. We theoretically prove the framework's effectiveness even when real videos and model-generated videos follow different distributions. Experiments on CogVideoX demonstrate the efficiency of the proposed method.
- Abstract(参考訳): 直接選好最適化(DPO)は、勝利/損失データペアを通じてモデルと人間の選好を整合させるもので、言語と画像生成において顕著な成功を収めている。
しかし,DPOをビデオ拡散モデルに適用することは,(1)データ非効率性という重要な課題に直面している。
DPOイテレーション毎に数千の動画を生成すると、禁止コストが発生する。
人間のアノテーションは主観的偏見に悩まされ、自動識別器はひねりや動きの不整合などの微妙な時間的成果物の検出に失敗する。
そこで本研究では,(1)実写映像を勝利事例として使用し,その編集版(例えば,逆転,シャッフル,ノイズ破損クリップ)を損失事例として,(2)映像拡散モデルを訓練し,編集によって導入されたアーティファクトを識別・回避する。
このアプローチは、コストのかかる合成ビデオ比較の必要性を排除し、不明瞭な品質信号を提供し、単純な編集操作による無制限なトレーニングデータ拡張を可能にする。
実動画とモデル生成ビデオが異なる分布に従えば,理論的にフレームワークの有効性を証明できる。
The experiments on CogVideoX demonstrate the efficiency of the method。
関連論文リスト
- VideoPure: Diffusion-based Adversarial Purification for Video Recognition [21.317424798634086]
本稿では,ビデオ認識モデルの対角的ロバスト性を改善するための拡散型ビデオ浄化フレームワークであるVideoPureを提案する。
我々は、時間的DDIMインバージョンを用いて、入力分布を時間的に一貫したトラジェクトリ定義分布に変換し、より多くのビデオ構造を保ちながら、対向雑音をカバーする。
ベンチマークデータセットやモデルに対するブラックボックス,グレーボックス,アダプティブアタックに対する本手法の防御性能について検討する。
論文 参考訳(メタデータ) (2025-01-25T00:24:51Z) - OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization [30.6130504613716]
本稿では,ビデオ拡散モデルに特化した嗜好学習手法であるOnlineVPOを紹介する。
OnlineVPOは、ビデオ報酬モデルを使用して、簡潔なビデオフィードバックをオンザフライで提供することにより、効率的かつ効率的な選好ガイダンスを提供する。
論文 参考訳(メタデータ) (2024-12-19T18:34:50Z) - Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM [54.2320450886902]
テキスト・ビデオ・モデルは高品質のテキスト・ビデオ・ペアを最適化することで顕著な進歩を遂げた。
現在の精製の自動化手法は、モダリティ・一貫性、コスト分散、モデルウナウエアといった課題に直面する。
Prompt-A-Videoは、特定のビデオ拡散モデルに合わせた、ビデオ中心、労働自由、調整されたプロンプトの製作に優れる。
論文 参考訳(メタデータ) (2024-12-19T18:32:21Z) - Real-time One-Step Diffusion-based Expressive Portrait Videos Generation [85.07446744308247]
我々は,OSA-LCM (One-Step Avatar Latent Consistency Model)を導入し,リアルタイム拡散に基づくアバターを実現する。
提案手法は,既存の手法に匹敵する映像品質を実現するが,サンプリングステップは1回しか必要とせず,処理速度は10倍以上に向上する。
論文 参考訳(メタデータ) (2024-12-18T03:42:42Z) - Video Summarization using Denoising Diffusion Probabilistic Model [21.4190413531697]
本稿では,確率分布の観点から要約を生成する方法を学ぶ,映像要約のための生成フレームワークを提案する。
具体的には、雑音予測によりトレーニングデータの確率分布を学習するDDPM(Denoising Diffusion Probabilistic Model)に基づく新しい拡散要約法を提案する。
提案手法は主観的アノテーションノイズに耐性があり,識別法よりも訓練データを過度に適合させる傾向が低く,高い一般化能力を有する。
論文 参考訳(メタデータ) (2024-12-11T13:02:09Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - InstructVideo: Instructing Video Diffusion Models with Human Feedback [65.9590462317474]
InstructVideo は人からのフィードバックでテキスト・ビデオ拡散モデルに報酬の微調整を施す。
InstructVideoには2つの重要な要素がある: 1) 全DDIMサンプリングチェーンを通じて発生する報酬微調整のコストを改善するために、編集として報酬微調整を再放送する。
論文 参考訳(メタデータ) (2023-12-19T17:55:16Z) - DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。
我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。
これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文 参考訳(メタデータ) (2023-03-17T10:07:19Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。