論文の概要: Diffusion Alignment Beyond KL: Variance Minimisation as Effective Policy Optimiser
- arxiv url: http://arxiv.org/abs/2602.12229v1
- Date: Thu, 12 Feb 2026 18:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.972621
- Title: Diffusion Alignment Beyond KL: Variance Minimisation as Effective Policy Optimiser
- Title(参考訳): KLを超える拡散アライメント-効果的な政策最適化としての変動最小化
- Authors: Zijing Ou, Jacob Si, Junyi Zhu, Ondrej Bohdal, Mete Ozay, Taha Ceritli, Yingzhen Li,
- Abstract要約: 可変最小化政策最適化(VMPO)について紹介する。
VMPOは、ログの重みの分散を最小限に抑えるために拡散アライメントを定式化する。
ポテンシャル関数と分散最小化戦略の異なる選択の下で、VMPOは様々な既存メソッドを復元する。
- 参考スコア(独自算出の注目度): 35.260598916253635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion alignment adapts pretrained diffusion models to sample from reward-tilted distributions along the denoising trajectory. This process naturally admits a Sequential Monte Carlo (SMC) interpretation, where the denoising model acts as a proposal and reward guidance induces importance weights. Motivated by this view, we introduce Variance Minimisation Policy Optimisation (VMPO), which formulates diffusion alignment as minimising the variance of log importance weights rather than directly optimising a Kullback-Leibler (KL) based objective. We prove that the variance objective is minimised by the reward-tilted target distribution and that, under on-policy sampling, its gradient coincides with that of standard KL-based alignment. This perspective offers a common lens for understanding diffusion alignment. Under different choices of potential functions and variance minimisation strategies, VMPO recovers various existing methods, while also suggesting new design directions beyond KL.
- Abstract(参考訳): 拡散アライメントは、denoising trajectoryに沿った報奨型分布のサンプルに事前訓練された拡散モデルを適用する。
このプロセスは、シークエンシャルモンテカルロ (SMC) の解釈を自然に認めており、そこではデノナイジングモデルが提案として機能し、報酬誘導が重み付けを誘導する。
この観点から得られた変数最小化政策最適化(VMPO)は,KL(Kulback-Leibler)に基づく目的を直接最適化するのではなく,ログ重みの分散を最小化する拡散アライメントを定式化する。
報奨型目標分布によって分散目標が最小化されることを実証し, オンラインサンプリングにおいて, その勾配は標準KLベースのアライメントと一致することを証明した。
この視点は拡散アライメントを理解するための共通のレンズを提供する。
ポテンシャル関数と分散最小化戦略の異なる選択の下で、VMPOは様々な既存手法を復元し、KLを超える新しい設計方向を提案する。
関連論文リスト
- An Elementary Approach to Scheduling in Generative Diffusion Models [55.171367482496755]
生成拡散モデルにおけるノイズスケジューリングと時間離散化の影響を特徴付けるための基礎的手法を開発した。
異なるデータセットと事前訓練されたモデルにわたる実験により、我々のアプローチによって選択された時間離散化戦略が、ベースラインとサーチベースの戦略を一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-01-20T05:06:26Z) - A Diffusion Model Framework for Maximum Entropy Reinforcement Learning [32.26181994745642]
拡散力学を原理的に組み込んだ MaxEntRL の置換対象を修正した。
DiffSAC, DiffPPO, DiffWPO は, SAC や PPO よりも良いリターンと高いサンプル効率を実現する。
論文 参考訳(メタデータ) (2025-12-01T18:59:58Z) - Training-Free Stein Diffusion Guidance: Posterior Correction for Sampling Beyond High-Density Regions [46.59494117137471]
自由拡散誘導の訓練は、追加の訓練なしに既成の分類器を活用する柔軟な方法を提供する。
本稿では,SOC を対象とする新たなトレーニングフリーフレームワークである Stein Diffusion Guidance (SDG) を紹介する。
分子低密度サンプリングタスクの実験は、SDGが標準のトレーニングフリーガイダンス手法を一貫して上回っていることを示唆している。
論文 参考訳(メタデータ) (2025-07-07T21:14:27Z) - Aligning Latent Spaces with Flow Priors [72.24305287508474]
本稿では,学習可能な潜在空間を任意の目標分布に整合させるための新しいフレームワークを提案する。
特に,提案手法は計算コストの高い確率評価を排除し,最適化時のODE解決を回避する。
論文 参考訳(メタデータ) (2025-06-05T16:59:53Z) - Amortized Posterior Sampling with Diffusion Prior Distillation [55.03585818289934]
Amortized Posterior Smplingは、逆問題における効率的な後方サンプリングのための新しい変分推論手法である。
本手法は,拡散モデルにより暗黙的に定義された変動分布と後続分布とのばらつきを最小限に抑えるために条件付き流れモデルを訓練する。
既存の手法とは異なり、我々のアプローチは教師なしであり、ペア化されたトレーニングデータを必要としておらず、ユークリッドと非ユークリッドの両方のドメインに適用できる。
論文 参考訳(メタデータ) (2024-07-25T09:53:12Z) - Sequential Monte Carlo for Inclusive KL Minimization in Amortized Variational Inference [3.126959812401426]
SMC-Wakeは,モンテカルロの連続検層を用いて包摂的KL偏差の勾配を推定する補正式である。
シミュレーションと実データの両方を用いた実験では、SMC-Wakeは既存の手法よりも後方を正確に近似する変動分布に適合する。
論文 参考訳(メタデータ) (2024-03-15T18:13:48Z) - Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。
本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文 参考訳(メタデータ) (2023-06-27T08:15:28Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。