Fugu-MT 論文翻訳(概要): Maximum Entropy Inverse Reinforcement Learning of Diffusion Models with Energy-Based Models

論文の概要: Maximum Entropy Inverse Reinforcement Learning of Diffusion Models with Energy-Based Models

arxiv url: http://arxiv.org/abs/2407.00626v1
Date: Sun, 30 Jun 2024 08:52:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 02:17:05.196479
Title: Maximum Entropy Inverse Reinforcement Learning of Diffusion Models with Energy-Based Models
Title（参考訳）: エネルギーモデルを用いた拡散モデルの最大エントロピー逆強化学習
Authors: Sangwoong Yoon, Himchan Hwang, Dohyun Kwon, Yung-Kyun Noh, Frank C. Park,
Abstract要約: 本稿では,拡散生成モデルのサンプル品質を向上させるために,最大強化学習(IRL)手法を提案する。トレーニングデータから推定したログ密度を用いて拡散モデルを訓練(または微調整)する。実験により,DxMIを用いて微調整した拡散モデルでは,4段階から10段階の精度で高品質な試料を生成できることがわかった。
参考スコア（独自算出の注目度）: 12.327318533784961
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a maximum entropy inverse reinforcement learning (IRL) approach for improving the sample quality of diffusion generative models, especially when the number of generation time steps is small. Similar to how IRL trains a policy based on the reward function learned from expert demonstrations, we train (or fine-tune) a diffusion model using the log probability density estimated from training data. Since we employ an energy-based model (EBM) to represent the log density, our approach boils down to the joint training of a diffusion model and an EBM. Our IRL formulation, named Diffusion by Maximum Entropy IRL (DxMI), is a minimax problem that reaches equilibrium when both models converge to the data distribution. The entropy maximization plays a key role in DxMI, facilitating the exploration of the diffusion model and ensuring the convergence of the EBM. We also propose Diffusion by Dynamic Programming (DxDP), a novel reinforcement learning algorithm for diffusion models, as a subroutine in DxMI. DxDP makes the diffusion model update in DxMI efficient by transforming the original problem into an optimal control formulation where value functions replace back-propagation in time. Our empirical studies show that diffusion models fine-tuned using DxMI can generate high-quality samples in as few as 4 and 10 steps. Additionally, DxMI enables the training of an EBM without MCMC, stabilizing EBM training dynamics and enhancing anomaly detection performance.
Abstract（参考訳）: 本稿では,拡散生成モデルのサンプル品質を改善するために,最大エントロピー逆強化学習(IRL)手法を提案する。 IRLは、専門家によるデモンストレーションから学んだ報酬関数に基づいてポリシーを訓練するのと同じように、トレーニングデータから推定されるログ確率密度を用いて拡散モデルを訓練(または微調整)する。ログ密度を表すためにエネルギーベースモデル(EBM)を用いるので,この手法は拡散モデルとESMの連成訓練に当てはまる。最大エントロピーIRL(DxMI)によりDiffusionと命名された我々のIRL定式化は、両モデルがデータ分布に収束するときに平衡に達するミニマックス問題である。エントロピーの最大化はDxMIにおいて重要な役割を担い、拡散モデルの探索を促進し、ESMの収束を保証する。また,拡散モデルのための新しい強化学習アルゴリズムDxDPをDxMIのサブルーチンとして提案する。 DxDPは、DxMIにおける拡散モデルの更新を、元の問題を、値関数が時間内にバックプロパゲーションを置き換える最適制御公式に変換することによって効率的にする。実験により,DxMIを用いて微調整した拡散モデルでは,4段階から10段階の精度で高品質な試料を生成できることがわかった。さらに、DxMIはMCMCを使わずにEMMのトレーニングを可能にし、EMMのトレーニングダイナミクスを安定化し、異常検出性能を向上させる。

関連論文リスト

Iterative Distillation for Reward-Guided Fine-Tuning of Diffusion Models in Biomolecular Design [53.93023688824764]
生体分子設計における報酬誘導生成のための微調整拡散モデルの問題に対処する。本稿では,拡散モデルによる任意の報酬関数の最適化を可能にする,反復蒸留に基づく微調整フレームワークを提案する。 KLの発散最小化と相まって,既存のRL法と比較してトレーニングの安定性とサンプル効率を向上させる。
論文参考訳（メタデータ） (2025-07-01T05:55:28Z)
TADA: Improved Diffusion Sampling with Training-free Augmented Dynamics [42.99251753481681]
我々は,ImageNet512 上で比較 FID を比較対象とするアートソルバの現在の状態よりも最大 186% 以上高速な新しいサンプリング手法を提案する。提案手法の鍵は,高次元初期雑音を用いて,より詳細なサンプルを生成することである。
論文参考訳（メタデータ） (2025-06-26T20:30:27Z)
Learning Individual Behavior in Agent-Based Models with Graph Diffusion Networks [2.749593964424624]
エージェントベースモデル(ABM)は、複雑なシステムの創発的特性を研究するための強力なツールである。生成したデータを観測することで,任意のABMの識別可能なサロゲートを学習するための新しいフレームワークを提案する。本手法は,拡散モデルとグラフニューラルネットワークを組み合わせ,エージェントの相互作用をモデル化する。
論文参考訳（メタデータ） (2025-05-27T16:55:56Z)
Physics Informed Distillation for Diffusion Models [21.173298037358954]
本研究では,教師の拡散モデルに対応するODEシステムの解法を表現するために,学生モデルを用いた物理インフォームド蒸留(PID)を導入する。 PIDの性能は最近の蒸留法と同等である。
論文参考訳（メタデータ） (2024-11-13T07:03:47Z)
Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文参考訳（メタデータ） (2024-10-28T17:25:56Z)
Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文参考訳（メタデータ） (2024-08-27T14:25:42Z)
An Overview of Diffusion Models: Applications, Guided Generation, Statistical Rates and Optimization [59.63880337156392]
拡散モデルはコンピュータビジョン、オーディオ、強化学習、計算生物学において大きな成功を収めた。経験的成功にもかかわらず、拡散モデルの理論は非常に限定的である。本稿では,前向きな理論や拡散モデルの手法を刺激する理論的露光について述べる。
論文参考訳（メタデータ） (2024-04-11T14:07:25Z)
Generalized Contrastive Divergence: Joint Training of Energy-Based Model and Diffusion Model through Inverse Reinforcement Learning [13.22531381403974]
Generalized Contrastive Divergence (GCD) はエネルギーベースモデル(EBM)とサンプルを同時にトレーニングするための新しい目的関数である。 EBMと拡散モデルの両方にジョイントトレーニングが有用であることを示す予備的かつ有望な結果を示す。
論文参考訳（メタデータ） (2023-12-06T10:10:21Z)
Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood [64.95663299945171]
高次元データに基づくエネルギーベースモデル(EBM)の訓練は、困難かつ時間を要する可能性がある。 EBMと、GANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質に顕著なギャップがある。本研究では,協調拡散回復可能性 (CDRL) を提案する。
論文参考訳（メタデータ） (2023-09-10T22:05:24Z)
Exploring the Optimal Choice for Generative Processes in Diffusion Models: Ordinary vs Stochastic Differential Equations [6.2284442126065525]
ゼロ拡散(ODE)の場合と大きな拡散の場合の2つの制限シナリオについて数学的に検討する。その結果, 生成過程の終端に摂動が発生すると, ODEモデルは大きな拡散係数でSDEモデルより優れることがわかった。
論文参考訳（メタデータ） (2023-06-03T09:27:15Z)
Diff-Instruct: A Universal Approach for Transferring Knowledge From Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。 Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。 GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文参考訳（メタデータ） (2023-05-29T04:22:57Z)
Restoration based Generative Models [0.886014926770622]
デノイング拡散モデル(DDM)は、印象的な合成品質を示すことで注目を集めている。本稿では、画像復元(IR)の観点からDDMの解釈を確立する。本稿では,前処理の柔軟性を生かして,拡散過程と比較して性能を向上するマルチスケールトレーニングを提案する。われわれのフレームワークは、新しいタイプのフレキシブル・ジェネラル・ジェネラル・ジェネレーティブ・モデルの設計の道を開いたと信じている。
論文参考訳（メタデータ） (2023-02-20T00:53:33Z)
How Much is Enough? A Study on Diffusion Times in Score-based Generative Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文参考訳（メタデータ） (2022-06-10T15:09:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。