論文の概要: Latent State Marginalization as a Low-cost Approach for Improving
Exploration
- arxiv url: http://arxiv.org/abs/2210.00999v1
- Date: Mon, 3 Oct 2022 15:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:11:44.492539
- Title: Latent State Marginalization as a Low-cost Approach for Improving
Exploration
- Title(参考訳): 探索改善のための低コストアプローチとしての潜在状態マージナライゼーション
- Authors: Dinghuai Zhang, Aaron Courville, Yoshua Bengio, Qinqing Zheng, Amy
Zhang, Ricky T. Q. Chen
- Abstract要約: 我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
- 参考スコア(独自算出の注目度): 79.12247903178934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the maximum entropy (MaxEnt) reinforcement learning (RL) framework --
often touted for its exploration and robustness capabilities -- is usually
motivated from a probabilistic perspective, the use of deep probabilistic
models has not gained much traction in practice due to their inherent
complexity. In this work, we propose the adoption of latent variable policies
within the MaxEnt framework, which we show can provably approximate any policy
distribution, and additionally, naturally emerges under the use of world models
with a latent belief state. We discuss why latent variable policies are
difficult to train, how naive approaches can fail, then subsequently introduce
a series of improvements centered around low-cost marginalization of the latent
state, allowing us to make full use of the latent state at minimal additional
cost. We instantiate our method under the actor-critic framework, marginalizing
both the actor and critic. The resulting algorithm, referred to as Stochastic
Marginal Actor-Critic (SMAC), is simple yet effective. We experimentally
validate our method on continuous control tasks, showing that effective
marginalization can lead to better exploration and more robust training.
- Abstract(参考訳): 最大エントロピー(MaxEnt)強化学習(RL)フレームワークは、しばしば探索とロバスト性(ロバスト性)の能力で評価されるが、確率論的観点からは動機づけられることが多いが、深い確率的モデルの使用は、その固有の複雑さのため、実際にはあまり注目を集めていない。
そこで本研究では,任意の政策分布を合理的に近似できることを示し,それに加えて,潜在信念状態を持つ世界モデルを用いて自然に出現する潜在変数ポリシーをmaxentフレームワークに導入することを提案する。
潜在変数ポリシのトレーニングが難しい理由や,ナイーブなアプローチが失敗する可能性について論じた上で,潜在状態の低コストな限界化を中心とした一連の改善を導入することで,潜在状態の完全な使用を最小限のコストで行えるようにする。
我々はアクターと批評家の双方を疎外し、アクターと批評家の枠組みの下で手法をインスタンス化する。
結果として得られるアルゴリズムは、SMAC(Stochastic Marginal Actor-Critic)と呼ばれ、単純だが有効である。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Probabilistic Inference in Reinforcement Learning Done Right [37.31057328219418]
強化学習における一般的な見解は、マルコフ決定過程(MDP)のグラフィカルモデルに確率論的推論として問題を提起している。
この量を近似するための従来のアプローチは任意に貧弱であり、真の統計的推論を実装しないアルゴリズムに繋がる。
我々はまず、この量が、後悔によって測定されるように、効率的に探索するポリシーを生成するために実際に利用できることを明らかにした。
論文 参考訳(メタデータ) (2023-11-22T10:23:14Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Achieving Fairness in Multi-Agent Markov Decision Processes Using
Reinforcement Learning [30.605881670761853]
有限水平エピソードMDPにおける公平性を実現するための強化学習手法を提案する。
このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2023-06-01T03:43:53Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Reward Biased Maximum Likelihood Estimation for Reinforcement Learning [13.820705458648233]
マルコフ連鎖の適応制御のためのRBMLE(Reward-Biased Maximum Likelihood Estimate)を提案した。
我々は、現在最先端のアルゴリズムと同様に、$mathcalO( log T)$が$T$の時間的水平線上で後悔していることを示します。
論文 参考訳(メタデータ) (2020-11-16T06:09:56Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。