論文の概要: Discriminator-Free Direct Preference Optimization for Video Diffusion
- arxiv url: http://arxiv.org/abs/2504.08542v1
- Date: Fri, 11 Apr 2025 13:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-21 17:22:46.710582
- Title: Discriminator-Free Direct Preference Optimization for Video Diffusion
- Title(参考訳): ビデオ拡散のためのディスクリミネータフリー直接参照最適化
- Authors: Haoran Cheng, Qide Dong, Liang Peng, Zhizhou Sha, Weiguo Feng, Jinghui Xie, Zhao Song, Shilei Wen, Xiaofei He, Boxi Wu,
- Abstract要約: 本稿では,オリジナル映像を勝利事例として用い,編集版を負け事例として用いた差別化のないビデオDPOフレームワークを提案する。
実動画とモデル生成ビデオが異なる分布に従えば,理論的にフレームワークの有効性を証明できる。
- 参考スコア(独自算出の注目度): 25.304451979598863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO), which aligns models with human preferences through win/lose data pairs, has achieved remarkable success in language and image generation. However, applying DPO to video diffusion models faces critical challenges: (1) Data inefficiency. Generating thousands of videos per DPO iteration incurs prohibitive costs; (2) Evaluation uncertainty. Human annotations suffer from subjective bias, and automated discriminators fail to detect subtle temporal artifacts like flickering or motion incoherence. To address these, we propose a discriminator-free video DPO framework that: (1) Uses original real videos as win cases and their edited versions (e.g., reversed, shuffled, or noise-corrupted clips) as lose cases; (2) Trains video diffusion models to distinguish and avoid artifacts introduced by editing. This approach eliminates the need for costly synthetic video comparisons, provides unambiguous quality signals, and enables unlimited training data expansion through simple editing operations. We theoretically prove the framework's effectiveness even when real videos and model-generated videos follow different distributions. Experiments on CogVideoX demonstrate the efficiency of the proposed method.
- Abstract(参考訳): 直接選好最適化(DPO)は、勝利/損失データペアを通じてモデルと人間の選好を整合させるもので、言語と画像生成において顕著な成功を収めている。
しかし,DPOをビデオ拡散モデルに適用することは,(1)データ非効率性という重要な課題に直面している。
DPOイテレーション毎に数千の動画を生成すると、禁止コストが発生する。
人間のアノテーションは主観的偏見に悩まされ、自動識別器はひねりや動きの不整合などの微妙な時間的成果物の検出に失敗する。
そこで本研究では,(1)実写映像を勝利事例として使用し,その編集版(例えば,逆転,シャッフル,ノイズ破損クリップ)を損失事例として,(2)映像拡散モデルを訓練し,編集によって導入されたアーティファクトを識別・回避する。
このアプローチは、コストのかかる合成ビデオ比較の必要性を排除し、不明瞭な品質信号を提供し、単純な編集操作による無制限なトレーニングデータ拡張を可能にする。
実動画とモデル生成ビデオが異なる分布に従えば,理論的にフレームワークの有効性を証明できる。
The experiments on CogVideoX demonstrate the efficiency of the method。
関連論文リスト
- Direct Motion Models for Assessing Generated Videos [38.04485796547767]
ビデオ生成ビデオモデルの現在の制限は、可視的に見えるフレームを生成するが、動きが貧弱であることである。
ここでは、妥当な物体の相互作用と動きをよりよく測定する指標を開発することで、FVDを超えていく。
画素再構成や動作認識の代わりに点線を用いると、合成データの時間歪みに顕著に敏感な測定結果が得られることを示す。
論文 参考訳(メタデータ) (2025-04-30T22:34:52Z) - Learning from Streaming Video with Orthogonal Gradients [62.51504086522027]
本稿では,映像の連続的ストリームからの表現学習を自己指導的に行うという課題に対処する。
これは、トレーニング中にビデオが切り刻まれ、シャッフルされ、非冗長なバッチを生成する、ビデオ学習の標準的なアプローチとは異なる。
3つのタスクでシャッフルからシーケンシャルな学習に移行する際のパフォーマンスの低下を実演する。
論文 参考訳(メタデータ) (2025-04-02T17:59:57Z) - AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.82208863521353]
合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。
本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。
従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-25T08:52:07Z) - VideoPure: Diffusion-based Adversarial Purification for Video Recognition [21.317424798634086]
本稿では,ビデオ認識モデルの対角的ロバスト性を改善するための拡散型ビデオ浄化フレームワークであるVideoPureを提案する。
我々は、時間的DDIMインバージョンを用いて、入力分布を時間的に一貫したトラジェクトリ定義分布に変換し、より多くのビデオ構造を保ちながら、対向雑音をカバーする。
ベンチマークデータセットやモデルに対するブラックボックス,グレーボックス,アダプティブアタックに対する本手法の防御性能について検討する。
論文 参考訳(メタデータ) (2025-01-25T00:24:51Z) - OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization [30.6130504613716]
本稿では,ビデオ拡散モデルに特化した嗜好学習手法であるOnlineVPOを紹介する。
OnlineVPOは、ビデオ報酬モデルを使用して、簡潔なビデオフィードバックをオンザフライで提供することにより、効率的かつ効率的な選好ガイダンスを提供する。
論文 参考訳(メタデータ) (2024-12-19T18:34:50Z) - Prompt-A-Video: Prompt Your Video Diffusion Model via Preference-Aligned LLM [54.2320450886902]
テキスト・ビデオ・モデルは高品質のテキスト・ビデオ・ペアを最適化することで顕著な進歩を遂げた。
現在の精製の自動化手法は、モダリティ・一貫性、コスト分散、モデルウナウエアといった課題に直面する。
Prompt-A-Videoは、特定のビデオ拡散モデルに合わせた、ビデオ中心、労働自由、調整されたプロンプトの製作に優れる。
論文 参考訳(メタデータ) (2024-12-19T18:32:21Z) - Real-time One-Step Diffusion-based Expressive Portrait Videos Generation [85.07446744308247]
我々は,OSA-LCM (One-Step Avatar Latent Consistency Model)を導入し,リアルタイム拡散に基づくアバターを実現する。
提案手法は,既存の手法に匹敵する映像品質を実現するが,サンプリングステップは1回しか必要とせず,処理速度は10倍以上に向上する。
論文 参考訳(メタデータ) (2024-12-18T03:42:42Z) - Video Summarization using Denoising Diffusion Probabilistic Model [21.4190413531697]
本稿では,確率分布の観点から要約を生成する方法を学ぶ,映像要約のための生成フレームワークを提案する。
具体的には、雑音予測によりトレーニングデータの確率分布を学習するDDPM(Denoising Diffusion Probabilistic Model)に基づく新しい拡散要約法を提案する。
提案手法は主観的アノテーションノイズに耐性があり,識別法よりも訓練データを過度に適合させる傾向が低く,高い一般化能力を有する。
論文 参考訳(メタデータ) (2024-12-11T13:02:09Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - InstructVideo: Instructing Video Diffusion Models with Human Feedback [65.9590462317474]
InstructVideo は人からのフィードバックでテキスト・ビデオ拡散モデルに報酬の微調整を施す。
InstructVideoには2つの重要な要素がある: 1) 全DDIMサンプリングチェーンを通じて発生する報酬微調整のコストを改善するために、編集として報酬微調整を再放送する。
論文 参考訳(メタデータ) (2023-12-19T17:55:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。