Fugu-MT 論文翻訳(概要): Revisiting Gaussian mixture critic in off-policy reinforcement learning: a sample-based approach

論文の概要: Revisiting Gaussian mixture critic in off-policy reinforcement learning: a sample-based approach

arxiv url: http://arxiv.org/abs/2204.10256v1
Date: Thu, 21 Apr 2022 16:44:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-22 12:52:47.115782
Title: Revisiting Gaussian mixture critic in off-policy reinforcement learning: a sample-based approach
Title（参考訳）: 法外強化学習におけるガウス混合批判の再考--サンプルベースアプローチ
Authors: Bobak Shahriari, Abbas Abdolmaleki, Arunkumar Byravan, Abe Friesen, Siqi Liu, Jost Tobias Springenberg, Nicolas Heess, Matt Hoffman, Martin Riedmiller
Abstract要約: 本稿では、政策が達成できる最小限の知識と価値に関する事前知識の要求を除去する自然な代替案を再考する。さまざまな課題に対して最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 28.199348547856175
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Actor-critic algorithms that make use of distributional policy evaluation have frequently been shown to outperform their non-distributional counterparts on many challenging control tasks. Examples of this behavior include the D4PG and DMPO algorithms as compared to DDPG and MPO, respectively [Barth-Maron et al., 2018; Hoffman et al., 2020]. However, both agents rely on the C51 critic for value estimation.One major drawback of the C51 approach is its requirement of prior knowledge about the minimum andmaximum values a policy can attain as well as the number of bins used, which fixes the resolution ofthe distributional estimate. While the DeepMind control suite of tasks utilizes standardized rewards and episode lengths, thus enabling the entire suite to be solved with a single setting of these hyperparameters, this is often not the case. This paper revisits a natural alternative that removes this requirement, namelya mixture of Gaussians, and a simple sample-based loss function to train it in an off-policy regime. We empirically evaluate its performance on a broad range of continuous control tasks and demonstrate that it eliminates the need for these distributional hyperparameters and achieves state-of-the-art performance on a variety of challenging tasks (e.g. the humanoid, dog, quadruped, and manipulator domains). Finallywe provide an implementation in the Acme agent repository.
Abstract（参考訳）: 分散ポリシ評価を利用するアクター批判アルゴリズムは、多くの困難な制御タスクにおいて、非分配的なアルゴリズムよりも優れていることがしばしば示されている。この挙動の例としては、DDPGとMPOを比較したD4PGとDMPOアルゴリズムがある[Barth-Maron et al., 2018; Hoffman et al., 2020]。しかし、両エージェントは価値推定に関してC51の批判に依存しており、C51のアプローチの大きな欠点は、政策が達成できる最小値と最大値に関する事前知識と、分布推定の解決を固定するビンの数である。タスクのDeepMindコントロールスイートは、標準化された報酬とエピソードの長さを使用しているため、スイート全体をこれらのハイパーパラメータの単一設定で解決することができるが、そうではないことが多い。本稿では,ガウシアンとガウシアンを混合した天然の代替法と,オフ政治体制で学習するための単純なサンプルベース損失関数を再検討する。本研究では,多種多様な課題 (ヒューマノイド, 犬, 四重極, マニピュレータドメインなど) において, その性能を実証的に評価し, 分散ハイパーパラメータの必要性を排除し, 最先端のパフォーマンスを達成できることを実証する。最後に、Acmeエージェントリポジトリに実装を提供します。

関連論文リスト

Improving monotonic optimization in heterogeneous multi-agent reinforcement learning with optimal marginal deterministic policy gradient [18.64288030584699]
異種多エージェント強化学習(MARL) 逐次計算された$Q_psi*(s,a_1:i)$を、Q関数から派生した$phi_psi*(s,a_1:i)$に客観的に置き換える。一般化Q批判(GQC)を批判関数とし、悲観的不確実性制約損失を用いて異なるQ値推定を最適化する。
論文参考訳（メタデータ） (2025-07-14T07:16:01Z)
Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [17.76565371753346]
本稿では,報酬推論を伴わない2つのRLHFアルゴリズムを提案する。鍵となる考え方は、人間の嗜好と異なる局所値関数を推定し、ゼロ階勾配近似器でポリシー勾配を近似することである。以上の結果から,報酬推論なしで一般RLHF問題の解法が確立できることが示唆された。
論文参考訳（メタデータ） (2024-09-25T22:20:11Z)
Soft Actor-Critic with Beta Policy via Implicit Reparameterization Gradients [0.0]
ソフトアクター批判(SAC)は、政策最適化と非政治学習を組み合わせることで、サンプル効率を低下させる。勾配がreパラメータ化トリックによって計算できる分布に限られる。シミュレーションロボットの移動環境におけるベータポリシーにより,SACの訓練にこの手法を拡張した。実験結果から,ベータポリシが通常のポリシよりも優れ,通常のポリシと同等であることから,ベータポリシが有効な代替手段であることが示唆された。
論文参考訳（メタデータ） (2024-09-08T04:30:51Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文参考訳（メタデータ） (2023-10-24T01:00:01Z)
Dealing with Sparse Rewards in Continuous Control Robotics via Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文参考訳（メタデータ） (2022-06-12T04:09:39Z)
On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces [23.186300629667134]
重み付きパラメータ化の下でのポリシー勾配アルゴリズムの収束性について検討する。我々の主要な理論的貢献は、このスキームが一定のステップとバッチサイズに収束することである。
論文参考訳（メタデータ） (2022-01-28T18:54:30Z)
Robust and Adaptive Temporal-Difference Learning Using An Ensemble of Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。 OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。 1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文参考訳（メタデータ） (2021-12-01T23:15:09Z)
Controlling Conditional Language Models with Distributional Policy Gradients [2.9176992922046923]
汎用事前学習型生成モデルは、ダウンストリーム要求の一部を満たすことができないことが多い。このことは、事前訓練された生成モデルをその能力を破壊することなく新しいタスクに適応させる方法について重要な疑問を提起する。近年の研究では、エネルギーモデルを用いてタスク固有の要求を表現することによって、この問題を解決することが示唆されている。本稿では,条件付きDMG(CDPG)を提案し,条件付きタスクにアプローチを拡張した。
論文参考訳（メタデータ） (2021-12-01T19:24:05Z)
Enhanced Scene Specificity with Sparse Dynamic Value Estimation [22.889059874754242]
マルチシーン強化学習は多くのアプリケーションに欠かせないものとなっている。分散低減のための一つの戦略は、各シーンを別のマルコフ決定過程(MDP)として考えることである。本稿では,真のシーン固有値関数と予測された動的推定値との誤差を,スパースクラスタ割り当てを段階的に実施することで,さらに低減することができると論じる。
論文参考訳（メタデータ） (2020-11-25T08:35:16Z)
MLE-guided parameter search for task loss minimization in neural sequence modeling [83.83249536279239]
ニューラル自己回帰シーケンスモデルは、さまざまな自然言語処理(NLP)タスクのシーケンスを生成するために使用される。本稿では,現在のパラメータとその周辺における乱探索の混合である更新方向の分布から,最大至適勾配の分布をサンプリングする,最大至適誘導パラメータ探索(MGS)を提案する。以上の結果から,MGS は,機械翻訳における最小リスクトレーニングに比べて,繰り返しや非終端の大幅な削減を図り,シーケンスレベルの損失を最適化できることが示唆された。
論文参考訳（メタデータ） (2020-06-04T22:21:22Z)
Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。 KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文参考訳（メタデータ） (2020-02-17T13:30:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。