論文の概要: Training-Free Adaptation of Diffusion Models via Doob's $h$-Transform
- arxiv url: http://arxiv.org/abs/2602.16198v1
- Date: Wed, 18 Feb 2026 05:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.524467
- Title: Training-Free Adaptation of Diffusion Models via Doob's $h$-Transform
- Title(参考訳): Doobの$h$-transformによる拡散モデルの学習自由適応
- Authors: Qijie Zhu, Zeqi Ye, Han Liu, Zhaoran Wang, Minshuo Chen,
- Abstract要約: DOIT(Doob-Oriented Inference-time Transformation)は、トレーニング不要で計算効率のよい適応法である。
我々は,この輸送を実現するためにDoobの$h$-transformを利用し,拡散サンプリングプロセスに対する動的補正を誘導する。
本手法はサンプリング効率を保ちながら常に最先端のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 37.05492050174751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptation methods have been a workhorse for unlocking the transformative power of pre-trained diffusion models in diverse applications. Existing approaches often abstract adaptation objectives as a reward function and steer diffusion models to generate high-reward samples. However, these approaches can incur high computational overhead due to additional training, or rely on stringent assumptions on the reward such as differentiability. Moreover, despite their empirical success, theoretical justification and guarantees are seldom established. In this paper, we propose DOIT (Doob-Oriented Inference-time Transformation), a training-free and computationally efficient adaptation method that applies to generic, non-differentiable rewards. The key framework underlying our method is a measure transport formulation that seeks to transport the pre-trained generative distribution to a high-reward target distribution. We leverage Doob's $h$-transform to realize this transport, which induces a dynamic correction to the diffusion sampling process and enables efficient simulation-based computation without modifying the pre-trained model. Theoretically, we establish a high probability convergence guarantee to the target high-reward distribution via characterizing the approximation error in the dynamic Doob's correction. Empirically, on D4RL offline RL benchmarks, our method consistently outperforms state-of-the-art baselines while preserving sampling efficiency.
- Abstract(参考訳): 適応法は、様々な応用において、事前学習された拡散モデルの変換力を解き放つための作業である。
既存のアプローチでは、報酬関数やステア拡散モデルとして適応目的を抽象化して高逆サンプルを生成することが多い。
しかし、これらの手法は、追加の訓練によって高い計算オーバーヘッドを生じさせるか、あるいは微分可能性のような報酬に厳密な仮定に依存する。
さらに、実証的な成功にもかかわらず、理論上の正当化と保証はめったに確立されない。
本稿では,汎用的で非微分不可能な報酬に適応する訓練自由かつ計算効率の良い適応手法であるDOIT(Doob-Oriented Inference-time Transformation)を提案する。
提案手法の基盤となる重要な枠組みは,事前学習した生成分布を高次目標分布へ輸送する計測輸送の定式化である。
本研究では,このトランスポートを実現するためにDoobの$h$-transformを活用し,拡散サンプリングプロセスに動的に補正し,事前学習モデルを変更することなく効率的なシミュレーションベースの計算を可能にする。
理論的には、動的Doob補正における近似誤差を特徴付けることにより、ターゲットの高次分布に対する確率収束を保証する。
D4RLのオフラインRLベンチマークでは,サンプリング効率を保ちながら常に最先端のベースラインを上回っている。
関連論文リスト
- Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。
生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:37:16Z) - VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。
提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文 参考訳(メタデータ) (2025-05-21T17:44:37Z) - Diffusion Classifier-Driven Reward for Offline Preference-based Reinforcement Learning [45.95668702930697]
拡散選好に基づく報酬獲得法(DPR)を提案する。
DPRは、段階的嗜好に基づく報酬獲得を二項分類として直接扱い、拡散分類器の堅牢性を利用して段階的報酬を識別的に推測する。
また,Diffusion Preference-based Reward (C-DPR)を提案する。
論文 参考訳(メタデータ) (2025-03-03T03:49:38Z) - Adaptive teachers for amortized samplers [76.88721198565861]
そこで,本研究では,初等無罪化標本作成者(学生)の指導を指導する適応的学習分布(教師)を提案する。
本研究では, この手法の有効性を, 探索課題の提示を目的とした合成環境において検証する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - Variational Schrödinger Diffusion Models [14.480273869571468]
Schr"odinger Bridge (SB) は拡散モデルにおける輸送計画の最適化手法として登場した。
我々は変分推論を利用してSBの前方スコア関数(変分スコア)を線形化する。
本稿では,多変量拡散過程と変分スコアを適応的に最適化して効率的な輸送を行う,変分Schr"odinger拡散モデル(VSDM)を提案する。
論文 参考訳(メタデータ) (2024-05-08T04:01:40Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。