論文の概要: Diffusion-DRF: Differentiable Reward Flow for Video Diffusion Fine-Tuning
- arxiv url: http://arxiv.org/abs/2601.04153v1
- Date: Wed, 07 Jan 2026 18:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.711141
- Title: Diffusion-DRF: Differentiable Reward Flow for Video Diffusion Fine-Tuning
- Title(参考訳): Diffusion-DRF:ビデオ拡散微細調整のための微分逆流
- Authors: Yifan Wang, Yanyu Li, Sergey Tulyakov, Yun Fu, Anil Kag,
- Abstract要約: Diffusion-DRFは、微調整ビデオ拡散モデルのための微分可能な報酬フローである。
拡散縮退鎖を介してVLMフィードバックをバックプロパゲートする。
ビデオの品質とセマンティックアライメントを改善し、報酬のハッキングと崩壊を緩和する。
- 参考スコア(独自算出の注目度): 72.16213872139748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimization (DPO) has recently improved Text-to-Video (T2V) generation by enhancing visual fidelity and text alignment. However, current methods rely on non-differentiable preference signals from human annotations or learned reward models. This reliance makes training label-intensive, bias-prone, and easy-to-game, which often triggers reward hacking and unstable training. We propose Diffusion-DRF, a differentiable reward flow for fine-tuning video diffusion models using a frozen, off-the-shelf Vision-Language Model (VLM) as a training-free critic. Diffusion-DRF directly backpropagates VLM feedback through the diffusion denoising chain, converting logit-level responses into token-aware gradients for optimization. We propose an automated, aspect-structured prompting pipeline to obtain reliable multi-dimensional VLM feedback, while gradient checkpointing enables efficient updates through the final denoising steps. Diffusion-DRF improves video quality and semantic alignment while mitigating reward hacking and collapse -- without additional reward models or preference datasets. It is model-agnostic and readily generalizes to other diffusion-based generative tasks.
- Abstract(参考訳): DPO(Direct Preference Optimization)は、最近、視覚的忠実度とテキストアライメントを向上させることで、テキスト・ツー・ビデオ(T2V)生成を改善した。
しかし、現在の手法は人間のアノテーションや学習報酬モデルからの区別できない選好信号に依存している。
この依存は、ラベルにこだわる、バイアスのかかる、ゲームが楽になるようなトレーニングを可能にし、しばしば報酬のハッキングや不安定なトレーニングを引き起こす。
本研究では,VLM (Fold-the-off-the-shelf Vision-Language Model) を用いた微調整ビデオ拡散モデルに対する報奨フローであるDiffusion-DRFを提案する。
Diffusion-DRFは拡散デノナイジングチェーンを通じて直接VLMフィードバックをバックプロパゲートし、ロジトレベルの応答をトークン対応勾配に変換して最適化する。
本稿では,複数次元のVLMフィードバックを得るための自動アスペクト構造化プロンプトパイプラインを提案する。
Diffusion-DRFは、報酬のハッキングと崩壊を緩和しながら、ビデオの品質とセマンティックアライメントを改善する。
モデルに依存しず、他の拡散に基づく生成タスクに容易に一般化される。
関連論文リスト
- Sequence-Adaptive Video Prediction in Continuous Streams using Diffusion Noise Optimization [63.37868191173104]
本稿では,事前学習した拡散モデルをビデオストリームに継続的に適応させる手法を提案する。
拡散雑音最適化(SAVi-DNO)を用いた逐次適応映像予測手法について
実験により,Ego4DとOpenDV-YouTubeの長いビデオ上でのFVD,SSIM,PSNR測定値に基づく性能向上が実証された。
論文 参考訳(メタデータ) (2025-11-23T02:58:10Z) - Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [62.653984010274485]
VLA(Vision-Language-Action)モデルは、画像や命令をロボットアクションにマッピングするために、大きな視覚言語バックボーンを適応させる。
prevailingAsは、固定された左から右への順序で自動回帰的にアクションを生成するか、バックボーンの外側で分離または拡散ヘッドをアタッチする。
本稿では離散拡散を伴う離散化作用チャンクをモデル化する統一変換器ポリシである離散拡散VLAを提案する。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z) - NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows [75.70583906344815]
拡散モデルは、複雑なマルチモーダルな動作分布をモデル化できるため、アクションデコーダとして広く採用されている。
我々は、Vision-Language-Action(VLA)モデルのための拡散型デコーダの高速かつ表現性の高い代替品であるNinAを提案する。
論文 参考訳(メタデータ) (2025-08-23T00:02:15Z) - Exploring Iterative Refinement with Diffusion Models for Video Grounding [17.435735275438923]
ビデオグラウンドイングは、所定の文クエリに対応する未編集ビデオにおいて、ターゲットモーメントをローカライズすることを目的としている。
条件生成タスクとしてビデオグラウンドを定式化する拡散モデルを用いた新しいフレームワークであるDiffusionVGを提案する。
論文 参考訳(メタデータ) (2023-10-26T07:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。