論文の概要: Learning To Sample From Diffusion Models Via Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.08689v1
- Date: Mon, 09 Feb 2026 14:10:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.270402
- Title: Learning To Sample From Diffusion Models Via Inverse Reinforcement Learning
- Title(参考訳): 逆強化学習による拡散モデルからのサンプル学習
- Authors: Constant Bourdrez, Alexandre Vérine, Olivier Cappé,
- Abstract要約: 拡散モデルは、ニューラルネットワークによってガイドされる反復的復調プロセスを通じてサンプルを生成する。
本稿では,サンプリング戦略の学習のための逆強化学習フレームワークを提案する。
提案手法は,事前学習した拡散モデルにより生成された試料の品質を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 43.678382510171986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models generate samples through an iterative denoising process, guided by a neural network. While training the denoiser on real-world data is computationally demanding, the sampling procedure itself is more flexible. This adaptability serves as a key lever in practice, enabling improvements in both the quality of generated samples and the efficiency of the sampling process. In this work, we introduce an inverse reinforcement learning framework for learning sampling strategies without retraining the denoiser. We formulate the diffusion sampling procedure as a discrete-time finite-horizon Markov Decision Process, where actions correspond to optional modifications of the sampling dynamics. To optimize action scheduling, we avoid defining an explicit reward function. Instead, we directly match the target behavior expected from the sampler using policy gradient techniques. We provide experimental evidence that this approach can improve the quality of samples generated by pretrained diffusion models and automatically tune sampling hyperparameters.
- Abstract(参考訳): 拡散モデルは、ニューラルネットワークによってガイドされる反復的復調プロセスを通じてサンプルを生成する。
実世界のデータに対するデノイザーの訓練は計算的に要求されるが、サンプリング手順自体はより柔軟である。
この適応性は、実際に重要なレバーとして機能し、生成されたサンプルの品質とサンプリングプロセスの効率の両方を改善することができる。
本研究では,デノイザを再学習することなく,サンプリング戦略を学習するための逆強化学習フレームワークを提案する。
拡散サンプリング手順を離散時間有限水平マルコフ決定過程として定式化し, 動作はサンプリングダイナミクスの任意の修正に対応する。
アクションスケジューリングを最適化するために、明示的な報酬関数の定義を避ける。
代わりに、ポリシー勾配手法を用いて、サンプルから期待されるターゲット動作を直接マッチングする。
提案手法は,事前学習した拡散モデルにより生成されたサンプルの品質を向上し,サンプリングハイパーパラメータを自動的に調整できることを示す。
関連論文リスト
- TFTF: Training-Free Targeted Flow for Conditional Sampling [1.4151684142137693]
重要度サンプリングに基づくフローマッチングモデルのための訓練不要条件付きサンプリング手法を提案する。
重要サンプリングのネーブ適用は高次元環境における重み付けに苦しむため, 連続モンテカルロにおける再サンプリング手法を改良し, 取り入れる。
私たちのフレームワークは、理論上の正確性を確保しながら、追加のトレーニングを必要としません。
論文 参考訳(メタデータ) (2026-02-13T13:41:35Z) - Guided Star-Shaped Masked Diffusion [11.965970427956684]
本稿では,事前学習モデルを用いた新しいサンプリングアルゴリズムを提案する。
本手法は星型パラダイムを用いて生成過程を再構成する。
学習可能な再タスクスケジューラで拡張し、潜在的なエラーをインテリジェントに識別し、修正します。
論文 参考訳(メタデータ) (2025-10-09T15:53:51Z) - Noise Conditional Variational Score Distillation [60.38982038894823]
騒音条件変化スコア蒸留(NCVSD)は, 予混合拡散モデルから生成消音剤を蒸留する新しい方法である。
この知見を変分スコア蒸留フレームワークに組み込むことで、生成的デノイザのスケーラブルな学習を可能にする。
論文 参考訳(メタデータ) (2025-06-11T06:01:39Z) - Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。
本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。
トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文 参考訳(メタデータ) (2024-12-12T07:24:13Z) - Adaptive teachers for amortized samplers [76.88721198565861]
そこで,本研究では,初等無罪化標本作成者(学生)の指導を指導する適応的学習分布(教師)を提案する。
本研究では, この手法の有効性を, 探索課題の提示を目的とした合成環境において検証する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - Your Diffusion Model is Secretly a Noise Classifier and Benefits from Contrastive Training [20.492630610281658]
拡散モデルはデータをノイズ化することを学び、訓練されたデノイザを使用してデータ分布から新しいサンプルを生成する。
サンプルに追加される雑音のレベルを識別する,新たな自己教師型学習目標を提案する。
提案手法は逐次的および並列的な設定に有効であることを示す。
論文 参考訳(メタデータ) (2024-07-12T03:03:50Z) - Adaptive Client Sampling in Federated Learning via Online Learning with Bandit Feedback [31.826205004616227]
クライアントサンプリングは、最適化アルゴリズムの収束率に影響を与えるため、連邦学習(FL)システムにおいて重要な役割を果たす。
サンプリング分散の最小化を目的としたオンラインミラー降下(OSMD)アルゴリズムを提案する。
本手法は, 広く使用されている一様サンプリングよりも, フェデレーション最適化アルゴリズムの収束速度を向上できることを示す。
論文 参考訳(メタデータ) (2021-12-28T23:50:52Z) - Optimal Importance Sampling for Federated Learning [57.14673504239551]
フェデレートラーニングには、集中型と分散化された処理タスクが混在する。
エージェントとデータのサンプリングは概して一様であるが、本研究では一様でないサンプリングについて考察する。
エージェント選択とデータ選択の両方に最適な重要サンプリング戦略を導出し、置換のない一様サンプリングが元のFedAvgアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:15:33Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。