論文の概要: Diffusion-APO: Trajectory-Aware Direct Preference Alignment for Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2605.07503v1
- Date: Fri, 08 May 2026 09:37:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.966783
- Title: Diffusion-APO: Trajectory-Aware Direct Preference Alignment for Video Diffusion Transformers
- Title(参考訳): Diffusion-APO:ビデオ拡散変換器のトラジェクトリ・アウェア直接選好アライメント
- Authors: Jingyuan Zhu, Biaolong Chen, Le Zhang, Aixi Zhang, Hao Jiang, Pipei Huang,
- Abstract要約: Diffusion-APOは、ビデオ拡散モデルと人間の意図を一致させる軌跡認識アルゴリズムである。
オンラインランキング、半オンラインアンカー、オフラインリファインメント、蒸留対応ドリフト補正を統合した統一かつモジュール化されたRLHFフレームワークを導入する。
本研究では,Diffusion-APOが視覚的品質と指示の基準線を一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 12.948398661304184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently aligning large-scale video diffusion models with human intent requires a scalable and trajectory-aware pathway that bridges the inherent discrepancy between training noise distributions and practical inference trajectories. While existing paradigms such as Direct Preference Optimization (DPO) and Group Relative Policy Optimization (GRPO) attempt to address this, they are often hindered by either reliance on bias-prone, complex reward models or suboptimal timestep sampling. In this paper, we propose Diffusion-APO (Aligned Preference Optimization), a trajectory-aware algorithm that resolves this misalignment by synchronizing training noise with inference-time denoising paths to maximize gradient signal efficacy. To translate this algorithmic innovation into a practical solution, we introduce a unified and modular RLHF framework that integrates online ranking, half-online anchoring, offline refinement, and distillation-aware drift correction. This framework enables flexible, multi-stage preference alignment across diverse data and computational constraints without relying on scalar-reward-based policy gradients. Through extensive experiments, we demonstrate that Diffusion-APO consistently outperforms standard baselines in visual quality and instruction following, while effectively preserving generative fidelity during model acceleration, providing a robust, end-to-end pathway for scalable video diffusion alignment.
- Abstract(参考訳): 大規模ビデオ拡散モデルと人間の意図を効果的に整合させるには、トレーニングノイズ分布と実用的な推論軌跡との固有の相違を橋渡しするスケーラブルでトラジェクトリ対応の経路が必要である。
DPO(Direct Preference Optimization)やGRPO(Group Relative Policy Optimization)といった既存のパラダイムはこの問題に対処しようとするが、バイアスが発生しやすい、複雑な報酬モデル、あるいは最適以下のタイムステップサンプリングに依存するため、しばしば障害となる。
本稿では,信号の勾配効果を最大化するために,トレーニングノイズと推論時復調経路を同期させることにより,この誤りを解消するDiffusion-APO(Aligned Preference Optimization)を提案する。
このアルゴリズムの革新を実用的な解に変換するために,オンラインランキング,半オンラインアンカー,オフラインリファインメント,蒸留対応ドリフト補正を統合した,統一的でモジュール化されたRLHFフレームワークを導入する。
このフレームワークは、スカラーリワードベースのポリシー勾配に頼ることなく、多様なデータと計算制約をまたいだフレキシブルでマルチステージな優先順位調整を可能にする。
広汎な実験により,Diffusion-APOは視覚的品質と指示の基準線を一貫して上回りながら,モデルアクセラレーション時の生成忠実さを効果的に保ち,スケーラブルなビデオ拡散アライメントのための堅牢でエンドツーエンドな経路を提供することを示した。
関連論文リスト
- AHPA: Adaptive Hierarchical Prior Alignment for Diffusion Transformers [24.937985157569823]
我々は,信号と雑音の比に応じて,表現監督の有用な粒度が体系的に変化するため,このような時間ステップに依存しないアライメントが最適であると主張する。
ハイノイズでは拡散モデルはより粗い意味とレイアウトレベルのアンカーの恩恵を受けるが、低ノイズでは、トレーニング信号は空間的詳細で構造的に忠実な洗練を強調するべきである。
この非定常アライメント動作は、静的なシングルレベルスーパーバイザーに対する表現ミスマッチを生成する。
論文 参考訳(メタデータ) (2026-05-05T03:07:29Z) - V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think [90.69263509098948]
本稿では,ELBOをベースとしたサロゲートとグループ相対ポリシー最適化アルゴリズムを統合した変分GRPOを提案する。
V-GRPOはテキストと画像の合成において最先端のパフォーマンスを実現し、MixGRPOよりも2倍のスピードアップ、DiffusionNFTより3倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-04-25T17:03:21Z) - HAD: Combining Hierarchical Diffusion with Metric-Decoupled RL for End-to-End Driving [51.268878540511054]
我々は階層的拡散政策を備えたエンドツーエンドの計画フレームワークであるHADを提案する。
我々は,NAVSIMとHUGSIMの両方でHADが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2026-04-04T04:12:47Z) - Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models [58.3184497327891]
蒸留自己回帰(AR)ビデオモデルは、効率的なストリーミング生成を可能にするが、しばしば人間の視覚的嗜好に反する。
蒸留ARモデルに適した効率的なオンライン強化学習フレームワークであるAstrolabeを提案する。
論文 参考訳(メタデータ) (2026-03-17T18:32:18Z) - LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models [48.68246945083386]
Likelihood-Free Policy Optimization (LFPO) は、ベクトル場フローの概念を離散トークン空間にマッピングするネイティブフレームワークである。
LFPOは幾何速度補正としてアライメントを定式化し、対照的な更新によって直接対流を最適化する。
実験によると、LFPOはコードと推論ベンチマークの最先端のベースラインを上回るだけでなく、拡散ステップの削減によって推論を約20%加速する。
論文 参考訳(メタデータ) (2026-03-02T07:42:55Z) - Adaptive Linear Path Model-Based Diffusion [52.84663832658799]
リニアパスモデルベース拡散(LP-MBD)を導入し、分散保存スケジュールをフローマッチング線形確率パスに置き換える。
また,適応型LP-MBD(ALP-MBD)を提案し,タスクの複雑さや環境条件に応じて拡散ステップやノイズレベルを調整する。
論文 参考訳(メタデータ) (2026-02-02T21:33:03Z) - SPREAD: Sampling-based Pareto front Refinement via Efficient Adaptive Diffusion [0.8594140167290097]
SPREADは拡散確率モデル(DDPM)に基づく生成フレームワークである
決定空間からサンプリングされた点上の条件拡散過程を学習する。
適応的多重勾配降下インスパイアされた更新を高速収束に利用するサンプリングスキームにより、候補を洗練する。
論文 参考訳(メタデータ) (2025-09-25T12:09:37Z) - Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening [56.99266993852532]
拡散シャープニング(Diffusion-Sharpening)は、サンプリング軌道を最適化することで下流のアライメントを向上させる微調整手法である。
提案手法は, NFEを必要とせず, より高速に収束し, 最高の推論効率を示す。
論文 参考訳(メタデータ) (2025-02-17T18:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。