論文の概要: Learning To Sample From Diffusion Models Via Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.08689v1
- Date: Mon, 09 Feb 2026 14:10:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.270402
- Title: Learning To Sample From Diffusion Models Via Inverse Reinforcement Learning
- Title(参考訳): 逆強化学習による拡散モデルからのサンプル学習
- Authors: Constant Bourdrez, Alexandre Vérine, Olivier Cappé,
- Abstract要約: 拡散モデルは、ニューラルネットワークによってガイドされる反復的復調プロセスを通じてサンプルを生成する。
本稿では,サンプリング戦略の学習のための逆強化学習フレームワークを提案する。
提案手法は,事前学習した拡散モデルにより生成された試料の品質を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 43.678382510171986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models generate samples through an iterative denoising process, guided by a neural network. While training the denoiser on real-world data is computationally demanding, the sampling procedure itself is more flexible. This adaptability serves as a key lever in practice, enabling improvements in both the quality of generated samples and the efficiency of the sampling process. In this work, we introduce an inverse reinforcement learning framework for learning sampling strategies without retraining the denoiser. We formulate the diffusion sampling procedure as a discrete-time finite-horizon Markov Decision Process, where actions correspond to optional modifications of the sampling dynamics. To optimize action scheduling, we avoid defining an explicit reward function. Instead, we directly match the target behavior expected from the sampler using policy gradient techniques. We provide experimental evidence that this approach can improve the quality of samples generated by pretrained diffusion models and automatically tune sampling hyperparameters.
- Abstract(参考訳): 拡散モデルは、ニューラルネットワークによってガイドされる反復的復調プロセスを通じてサンプルを生成する。
実世界のデータに対するデノイザーの訓練は計算的に要求されるが、サンプリング手順自体はより柔軟である。
この適応性は、実際に重要なレバーとして機能し、生成されたサンプルの品質とサンプリングプロセスの効率の両方を改善することができる。
本研究では,デノイザを再学習することなく,サンプリング戦略を学習するための逆強化学習フレームワークを提案する。
拡散サンプリング手順を離散時間有限水平マルコフ決定過程として定式化し, 動作はサンプリングダイナミクスの任意の修正に対応する。
アクションスケジューリングを最適化するために、明示的な報酬関数の定義を避ける。
代わりに、ポリシー勾配手法を用いて、サンプルから期待されるターゲット動作を直接マッチングする。
提案手法は,事前学習した拡散モデルにより生成されたサンプルの品質を向上し,サンプリングハイパーパラメータを自動的に調整できることを示す。
関連論文リスト
- Guided Star-Shaped Masked Diffusion [11.965970427956684]
本稿では,事前学習モデルを用いた新しいサンプリングアルゴリズムを提案する。
本手法は星型パラダイムを用いて生成過程を再構成する。
学習可能な再タスクスケジューラで拡張し、潜在的なエラーをインテリジェントに識別し、修正します。
論文 参考訳(メタデータ) (2025-10-09T15:53:51Z) - Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。
本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。
トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文 参考訳(メタデータ) (2024-12-12T07:24:13Z) - Adaptive teachers for amortized samplers [76.88721198565861]
そこで,本研究では,初等無罪化標本作成者(学生)の指導を指導する適応的学習分布(教師)を提案する。
本研究では, この手法の有効性を, 探索課題の提示を目的とした合成環境において検証する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - Your Diffusion Model is Secretly a Noise Classifier and Benefits from Contrastive Training [20.492630610281658]
拡散モデルはデータをノイズ化することを学び、訓練されたデノイザを使用してデータ分布から新しいサンプルを生成する。
サンプルに追加される雑音のレベルを識別する,新たな自己教師型学習目標を提案する。
提案手法は逐次的および並列的な設定に有効であることを示す。
論文 参考訳(メタデータ) (2024-07-12T03:03:50Z) - Adaptive Client Sampling in Federated Learning via Online Learning with Bandit Feedback [31.826205004616227]
クライアントサンプリングは、最適化アルゴリズムの収束率に影響を与えるため、連邦学習(FL)システムにおいて重要な役割を果たす。
サンプリング分散の最小化を目的としたオンラインミラー降下(OSMD)アルゴリズムを提案する。
本手法は, 広く使用されている一様サンプリングよりも, フェデレーション最適化アルゴリズムの収束速度を向上できることを示す。
論文 参考訳(メタデータ) (2021-12-28T23:50:52Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。