論文の概要: Revisiting Gaussian mixture critic in off-policy reinforcement learning:
a sample-based approach
- arxiv url: http://arxiv.org/abs/2204.10256v1
- Date: Thu, 21 Apr 2022 16:44:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 12:52:47.115782
- Title: Revisiting Gaussian mixture critic in off-policy reinforcement learning:
a sample-based approach
- Title(参考訳): 法外強化学習におけるガウス混合批判の再考--サンプルベースアプローチ
- Authors: Bobak Shahriari, Abbas Abdolmaleki, Arunkumar Byravan, Abe Friesen,
Siqi Liu, Jost Tobias Springenberg, Nicolas Heess, Matt Hoffman, Martin
Riedmiller
- Abstract要約: 本稿では、政策が達成できる最小限の知識と価値に関する事前知識の要求を除去する自然な代替案を再考する。
さまざまな課題に対して最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 28.199348547856175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Actor-critic algorithms that make use of distributional policy evaluation
have frequently been shown to outperform their non-distributional counterparts
on many challenging control tasks. Examples of this behavior include the D4PG
and DMPO algorithms as compared to DDPG and MPO, respectively [Barth-Maron et
al., 2018; Hoffman et al., 2020]. However, both agents rely on the C51 critic
for value estimation.One major drawback of the C51 approach is its requirement
of prior knowledge about the minimum andmaximum values a policy can attain as
well as the number of bins used, which fixes the resolution ofthe
distributional estimate. While the DeepMind control suite of tasks utilizes
standardized rewards and episode lengths, thus enabling the entire suite to be
solved with a single setting of these hyperparameters, this is often not the
case. This paper revisits a natural alternative that removes this requirement,
namelya mixture of Gaussians, and a simple sample-based loss function to train
it in an off-policy regime. We empirically evaluate its performance on a broad
range of continuous control tasks and demonstrate that it eliminates the need
for these distributional hyperparameters and achieves state-of-the-art
performance on a variety of challenging tasks (e.g. the humanoid, dog,
quadruped, and manipulator domains). Finallywe provide an implementation in the
Acme agent repository.
- Abstract(参考訳): 分散ポリシ評価を利用するアクター批判アルゴリズムは、多くの困難な制御タスクにおいて、非分配的なアルゴリズムよりも優れていることがしばしば示されている。
この挙動の例としては、DDPGとMPOを比較したD4PGとDMPOアルゴリズムがある[Barth-Maron et al., 2018; Hoffman et al., 2020]。
しかし、両エージェントは価値推定に関してC51の批判に依存しており、C51のアプローチの大きな欠点は、政策が達成できる最小値と最大値に関する事前知識と、分布推定の解決を固定するビンの数である。
タスクのDeepMindコントロールスイートは、標準化された報酬とエピソードの長さを使用しているため、スイート全体をこれらのハイパーパラメータの単一設定で解決することができるが、そうではないことが多い。
本稿では,ガウシアンとガウシアンを混合した天然の代替法と,オフ政治体制で学習するための単純なサンプルベース損失関数を再検討する。
本研究では,多種多様な課題 (ヒューマノイド, 犬, 四重極, マニピュレータドメインなど) において, その性能を実証的に評価し, 分散ハイパーパラメータの必要性を排除し, 最先端のパフォーマンスを達成できることを実証する。
最後に、Acmeエージェントリポジトリに実装を提供します。
関連論文リスト
- Conservative DDPG -- Pessimistic RL without Ensemble [57.428976336729335]
DDPGは過大評価バイアス問題によって妨げられている。
このバイアスに対する伝統的な解決策は、アンサンブルに基づく方法を含んでいる。
本稿では,Q$-targetと行動クローン(BC)損失ペナルティを組み込んだ簡単なソリューションを提案する。
論文 参考訳(メタデータ) (2024-03-08T23:59:38Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using
Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks
and Queueing Systems [1.8749305679160366]
スコア・アウェア・グラデーションMD(SAGE)と呼ばれるMDPの勾配の新たなファミリーを導入する。
決定の定常分布が指数族に属する場合、SAGEは値-関数推定なしで政策勾配を推定できる。
適切な仮定の下では、適切なポリシーに十分近づき始めた場合に、ポリシー段階の手法が最適なポリシーに大きく収束していることが示される。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces [23.186300629667134]
重み付きパラメータ化の下でのポリシー勾配アルゴリズムの収束性について検討する。
我々の主要な理論的貢献は、このスキームが一定のステップとバッチサイズに収束することである。
論文 参考訳(メタデータ) (2022-01-28T18:54:30Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Controlling Conditional Language Models with Distributional Policy
Gradients [2.9176992922046923]
汎用事前学習型生成モデルは、ダウンストリーム要求の一部を満たすことができないことが多い。
このことは、事前訓練された生成モデルをその能力を破壊することなく新しいタスクに適応させる方法について重要な疑問を提起する。
近年の研究では、エネルギーモデルを用いてタスク固有の要求を表現することによって、この問題を解決することが示唆されている。
本稿では,条件付きDMG(CDPG)を提案し,条件付きタスクにアプローチを拡張した。
論文 参考訳(メタデータ) (2021-12-01T19:24:05Z) - Enhanced Scene Specificity with Sparse Dynamic Value Estimation [22.889059874754242]
マルチシーン強化学習は多くのアプリケーションに欠かせないものとなっている。
分散低減のための一つの戦略は、各シーンを別のマルコフ決定過程(MDP)として考えることである。
本稿では,真のシーン固有値関数と予測された動的推定値との誤差を,スパースクラスタ割り当てを段階的に実施することで,さらに低減することができると論じる。
論文 参考訳(メタデータ) (2020-11-25T08:35:16Z) - MLE-guided parameter search for task loss minimization in neural
sequence modeling [83.83249536279239]
ニューラル自己回帰シーケンスモデルは、さまざまな自然言語処理(NLP)タスクのシーケンスを生成するために使用される。
本稿では,現在のパラメータとその周辺における乱探索の混合である更新方向の分布から,最大至適勾配の分布をサンプリングする,最大至適誘導パラメータ探索(MGS)を提案する。
以上の結果から,MGS は,機械翻訳における最小リスクトレーニングに比べて,繰り返しや非終端の大幅な削減を図り,シーケンスレベルの損失を最適化できることが示唆された。
論文 参考訳(メタデータ) (2020-06-04T22:21:22Z) - Continuous Profit Maximization: A Study of Unconstrained Dr-submodular
Maximization [4.649999862713523]
我々は、整数格子上の領域である連続利益(CPM-MS)問題を形成する。
格子に基づく二重グリードアルゴリズムを導入し, 定数近似を求める。
本稿では,格子型反復プルーニング手法を提案し,探索空間を効果的に縮小することができる。
論文 参考訳(メタデータ) (2020-04-12T05:35:19Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。