論文の概要: Near-Minimax-Optimal Distributional Reinforcement Learning with a
Generative Model
- arxiv url: http://arxiv.org/abs/2402.07598v1
- Date: Mon, 12 Feb 2024 11:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 14:31:42.685407
- Title: Near-Minimax-Optimal Distributional Reinforcement Learning with a
Generative Model
- Title(参考訳): 生成モデルを用いた極小最適分布強化学習
- Authors: Mark Rowland, Li Kevin Wenliang, R\'emi Munos, Clare Lyle, Yunhao
Tang, Will Dabney
- Abstract要約: モデルベース分散強化学習(RL)のための新しいアルゴリズムを提案する。
生成モデル(対数因子まで)で回帰分布を近似するのがminimax-Optimalであることが証明されている。
また、独立な関心を持つであろう新しい分布ベルマン方程式も導入する。
- 参考スコア(独自算出の注目度): 35.85250306929723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new algorithm for model-based distributional reinforcement
learning (RL), and prove that it is minimax-optimal for approximating return
distributions with a generative model (up to logarithmic factors), resolving an
open question of Zhang et al. (2023). Our analysis provides new theoretical
results on categorical approaches to distributional RL, and also introduces a
new distributional Bellman equation, the stochastic categorical CDF Bellman
equation, which we expect to be of independent interest. We also provide an
experimental study comparing several model-based distributional RL algorithms,
with several takeaways for practitioners.
- Abstract(参考訳): モデルベース分散強化学習(RL)のための新しいアルゴリズムを提案し、生成モデル(対数因子まで)による戻り分布の近似が最小限最適であることを証明し、Zhangらによるオープンな質問を解決する(2023年)。
本解析は, 分布 rl に対する圏論的アプローチに関する新しい理論的な結果を与え, 分布的ベルマン方程式である確率的カテゴリー的 cdf ベルマン方程式も導入する。
また,複数のモデルに基づく分布RLアルゴリズムと,実践者によるいくつかのテイクアウトの比較実験を行った。
関連論文リスト
- Reward-Directed Score-Based Diffusion Models via q-Learning [8.725446812770791]
生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)法を提案する。
我々の定式化は、ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルを含まない。
論文 参考訳(メタデータ) (2024-09-07T13:55:45Z) - Model-Free Robust Reinforcement Learning with Sample Complexity Analysis [16.477827600825428]
本稿では,マルチレベルモンテカルロ法を用いたモデルフリーDR-RLアルゴリズムを提案する。
我々は,全変動,チ二乗発散,KL発散によって定義される不確実性集合のアルゴリズムを開発する。
注目すべきは、我々のアルゴリズムは、有限サンプルの複雑さを特徴とする初めてのモデルフリーDR-RLアプローチである。
論文 参考訳(メタデータ) (2024-06-24T19:35:26Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Distributional Bellman Operators over Mean Embeddings [37.5480897544168]
本研究では,帰還分布の有限次元平均埋め込みを学習し,分布強化学習のための新しい枠組みを提案する。
動的プログラミングと時間差学習のための新しいアルゴリズムをこのフレームワークに基づいて提案する。
論文 参考訳(メタデータ) (2023-12-09T11:36:14Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Distributional Reinforcement Learning with Unconstrained Monotonic
Neural Networks [7.907645828535088]
本稿では,ランダムリターン分布の異なる表現を学習するための方法論を提案する。
制約のない単調深Q-network (UMDQN) と呼ばれる新しい分布RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-06T20:03:50Z) - Inferential Induction: A Novel Framework for Bayesian Reinforcement
Learning [6.16852156844376]
本稿では,データから値関数分布を正確に推定する新しいフレームワークInferential Injectionについて述べる。
本研究では,提案アルゴリズムが技術状況に対して競争力があることを実験的に実証した。
論文 参考訳(メタデータ) (2020-02-08T06:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。