論文の概要: Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space
- arxiv url: http://arxiv.org/abs/2410.01796v1
- Date: Wed, 2 Oct 2024 17:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 15:14:33.712028
- Title: Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space
- Title(参考訳): Bellman Diffusion: 分散空間における線形演算子学習のための生成モデリング
- Authors: Yangming Li, Chieh-Hsin Lai, Carola-Bibiane Schönlieb, Yuki Mitsufuji, Stefano Ermon,
- Abstract要約: 本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。
この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
- 参考スコア(独自算出の注目度): 72.52365911990935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Generative Models (DGMs), including Energy-Based Models (EBMs) and Score-based Generative Models (SGMs), have advanced high-fidelity data generation and complex continuous distribution approximation. However, their application in Markov Decision Processes (MDPs), particularly in distributional Reinforcement Learning (RL), remains underexplored, with conventional histogram-based methods dominating the field. This paper rigorously highlights that this application gap is caused by the nonlinearity of modern DGMs, which conflicts with the linearity required by the Bellman equation in MDPs. For instance, EBMs involve nonlinear operations such as exponentiating energy functions and normalizing constants. To address this, we introduce Bellman Diffusion, a novel DGM framework that maintains linearity in MDPs through gradient and scalar field modeling. With divergence-based training techniques to optimize neural network proxies and a new type of stochastic differential equation (SDE) for sampling, Bellman Diffusion is guaranteed to converge to the target distribution. Our empirical results show that Bellman Diffusion achieves accurate field estimations and is a capable image generator, converging 1.5x faster than the traditional histogram-based baseline in distributional RL tasks. This work enables the effective integration of DGMs into MDP applications, unlocking new avenues for advanced decision-making frameworks.
- Abstract(参考訳): エネルギーベースモデル(EBM)やスコアベース生成モデル(SGM)を含む深部生成モデル(DGM)は、高度な高忠実性データ生成と複雑な連続分布近似を持つ。
しかし、マルコフ決定過程(MDPs)、特に分布強化学習(RL)では、従来のヒストグラムに基づく手法がこの分野を支配している。
本稿では, MDPにおけるベルマン方程式の線形性と矛盾する現代のDGMの非線形性によって, この応用ギャップが引き起こされたことを, 厳密に強調する。
例えば、ESMはエネルギー関数の指数化や定数の正規化といった非線形演算を含む。
この問題に対処するために、勾配とスカラー場モデリングによるMDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。
ニューラルネットワークプロキシを最適化する分散ベースのトレーニング手法とサンプリングのための新しいタイプの確率微分方程式(SDE)により、ベルマン拡散はターゲット分布に収束することが保証される。
実験の結果,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
この作業により、MDPアプリケーションへのDGMの効果的な統合が可能になり、高度な意思決定フレームワークのための新たな道が開ける。
関連論文リスト
- Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Reward-Directed Score-Based Diffusion Models via q-Learning [8.725446812770791]
生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)法を提案する。
我々の定式化は、ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルを含まない。
論文 参考訳(メタデータ) (2024-09-07T13:55:45Z) - A Score-Based Density Formula, with Applications in Diffusion Generative Models [6.76974373198208]
スコアベース生成モデル(SGM)は、生成モデリングの分野に革命をもたらし、現実的で多様なコンテンツを生成するのに前例のない成功を収めた。
実験的な進歩にもかかわらず、ログライクリッド上でのエビデンスローバウンド(ELBO)の最適化がDDPMなどの拡散生成モデルの訓練に有効である理由に関する理論的根拠はほとんど未解明のままである。
論文 参考訳(メタデータ) (2024-08-29T17:59:07Z) - Wasserstein proximal operators describe score-based generative models
and resolve memorization [12.321631823103894]
We first formulate SGMs with terms of Wasserstein proximal operator (WPO)
We show that WPO describe the inductive bias of diffusion and score-based model。
本稿では,SGMの性能を劇的に向上させる,スコア関数の解釈可能なカーネルベースモデルを提案する。
論文 参考訳(メタデータ) (2024-02-09T03:33:13Z) - Generalized Contrastive Divergence: Joint Training of Energy-Based Model
and Diffusion Model through Inverse Reinforcement Learning [13.22531381403974]
Generalized Contrastive Divergence (GCD) はエネルギーベースモデル(EBM)とサンプルを同時にトレーニングするための新しい目的関数である。
EBMと拡散モデルの両方にジョイントトレーニングが有用であることを示す予備的かつ有望な結果を示す。
論文 参考訳(メタデータ) (2023-12-06T10:10:21Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Deep Generative Modeling on Limited Data with Regularization by
Nontransferable Pre-trained Models [32.52492468276371]
本稿では,限られたデータを用いた生成モデルの分散を低減するために,正規化深層生成モデル(Reg-DGM)を提案する。
Reg-DGMは、ある発散の重み付け和とエネルギー関数の期待を最適化するために、事前訓練されたモデルを使用する。
実験的に、様々な事前訓練された特徴抽出器とデータ依存エネルギー関数により、Reg-DGMはデータ制限のある強力なDGMの生成性能を一貫して改善する。
論文 参考訳(メタデータ) (2022-08-30T10:28:50Z) - Riemannian Score-Based Generative Modeling [56.20669989459281]
経験的性能を示すスコアベース生成モデル(SGM)を紹介する。
現在のSGMは、そのデータが平坦な幾何学を持つユークリッド多様体上で支えられているという前提を定めている。
これにより、ロボット工学、地球科学、タンパク質モデリングの応用にこれらのモデルを使用することができない。
論文 参考訳(メタデータ) (2022-02-06T11:57:39Z) - Identification of Probability weighted ARX models with arbitrary domains [75.91002178647165]
PieceWise Affineモデルは、ハイブリッドシステムの他のクラスに対する普遍近似、局所線型性、同値性を保証する。
本研究では,任意の領域を持つ固有入力モデル(NPWARX)を用いたPieceWise Auto Regressiveの同定に着目する。
このアーキテクチャは、機械学習の分野で開発されたMixture of Expertの概念に従って考案された。
論文 参考訳(メタデータ) (2020-09-29T12:50:33Z) - Training Deep Energy-Based Models with f-Divergence Minimization [113.97274898282343]
深部エネルギーベースモデル(EBM)は分布パラメトリゼーションにおいて非常に柔軟であるが、計算的に困難である。
所望のf偏差を用いてEMMを訓練するための、f-EBMと呼ばれる一般的な変分フレームワークを提案する。
実験の結果,F-EBMは対照的なばらつきよりも優れており,KL以外のf-divergencesを用いたEBMの訓練の利点も示された。
論文 参考訳(メタデータ) (2020-03-06T23:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。