論文の概要: Distributional value gradients for stochastic environments
- arxiv url: http://arxiv.org/abs/2601.20071v2
- Date: Fri, 30 Jan 2026 10:15:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 14:22:45.224313
- Title: Distributional value gradients for stochastic environments
- Title(参考訳): 確率環境における分布値勾配
- Authors: Baptiste Debes, Tinne Tuytelaars,
- Abstract要約: 回帰正則値学習法は、遷移力学と報酬の学習モデルを活用してサンプル効率を向上させる。
本研究では、連続状態-作用空間上の分散強化学習を拡張することで、これらの制約に対処する。
SVG(Value Gradients)にインスパイアされた本手法は,条件付きVari Autoencoder(cVAE)を用いて実装された報酬および遷移分布の一段階の世界モデルを利用する。
- 参考スコア(独自算出の注目度): 37.5115685757579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-regularized value learning methods improve sample efficiency by leveraging learned models of transition dynamics and rewards to estimate return gradients. However, existing approaches, such as MAGE, struggle in stochastic or noisy environments, limiting their applicability. In this work, we address these limitations by extending distributional reinforcement learning on continuous state-action spaces to model not only the distribution over scalar state-action value functions but also over their gradients. We refer to this approach as Distributional Sobolev Training. Inspired by Stochastic Value Gradients (SVG), our method utilizes a one-step world model of reward and transition distributions implemented via a conditional Variational Autoencoder (cVAE). The proposed framework is sample-based and employs Max-sliced Maximum Mean Discrepancy (MSMMD) to instantiate the distributional Bellman operator. We prove that the Sobolev-augmented Bellman operator is a contraction with a unique fixed point, and highlight a fundamental smoothness trade-off underlying contraction in gradient-aware RL. To validate our method, we first showcase its effectiveness on a simple stochastic reinforcement learning toy problem, then benchmark its performance on several MuJoCo environments.
- Abstract(参考訳): 回帰正則値学習法は、遷移力学と報酬の学習モデルを利用して、回帰勾配を推定することにより、サンプル効率を向上させる。
しかし、MAGEのような既存のアプローチは、確率的またはノイズの多い環境で苦労し、適用性を制限する。
本研究では、連続状態-作用空間上の分布強化学習をスカラー状態-作用値関数上の分布だけでなく、その勾配もモデル化するように拡張することで、これらの制限に対処する。
このアプローチを分散ソボレフトレーニングと呼ぶ。
SVG(Stochastic Value Gradients)にインスパイアされた本手法は,条件付き変分オートエンコーダ(cVAE)を用いて実装された報酬と遷移分布の一段階の世界モデルを利用する。
提案するフレームワークはサンプルベースで,最大平均離散値(MSMMD)を用いて分布型ベルマン演算子をインスタンス化する。
ソボレフ拡大ベルマン作用素が一意の固定点を持つ縮約であることを証明し、勾配対応 RL における基本的な滑らかさのトレードオフを明らかにする。
提案手法の有効性を検証するために,まず,簡単な確率的強化学習玩具問題に対して有効性を示し,その性能を複数の MuJoCo 環境で評価した。
関連論文リスト
- Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Conditioning Diffusions Using Malliavin Calculus [18.62300657866048]
生成的モデリングと最適制御において、中央の計算タスクは、与えられた端末時間報酬を最大化するために参照拡散プロセスを変更することである。
本稿では,Tweedieスコア公式の非線形微分方程式への一般化を中心に,Malliavin計算に基づく新しい枠組みを導入する。
これにより、拡散ブリッジや、すでに訓練済みの拡散モデルに条件付き制御を追加するような、幅広いアプリケーションを扱うことができます。
論文 参考訳(メタデータ) (2025-04-04T14:10:21Z) - TransFusion: Covariate-Shift Robust Transfer Learning for High-Dimensional Regression [11.040033344386366]
対象タスクの学習性能を限定的なサンプルで向上させるため, 新規な融合正規化器を用いた2段階の手法を提案する。
対象モデルの推定誤差に対して、漸近的境界が提供される。
提案手法を分散設定に拡張し,事前学習ファインタニング戦略を実現する。
論文 参考訳(メタデータ) (2024-04-01T14:58:16Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - GMAC: A Distributional Perspective on Actor-Critic Framework [6.243642831536256]
本稿では,新しいサンプル置換アルゴリズムSR($lambda$)から生成した複数ステップのベルマン目標分布を用いて,クラマー距離を最小化する手法を提案する。
我々は,GMACが値分布の正しい表現を捕捉し,計算コストの低い従来のアクター・クリティカル法の性能を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2021-05-24T15:50:26Z) - Efficient Marginalization of Discrete and Structured Latent Variables
via Sparsity [26.518803984578867]
離散的な(分類的または構造化された)潜在変数を持つニューラルネットワークモデルを訓練することは、計算的に困難である。
典型的には、真の限界のサンプリングに基づく近似に頼っている。
そこで本研究では,これらの推定器を高精度かつ効率的なマージン化によって置き換える新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-03T19:36:35Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。