論文の概要: Normality-Guided Distributional Reinforcement Learning for Continuous
Control
- arxiv url: http://arxiv.org/abs/2208.13125v1
- Date: Sun, 28 Aug 2022 02:52:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:09:14.149871
- Title: Normality-Guided Distributional Reinforcement Learning for Continuous
Control
- Title(参考訳): 連続制御のための正規性誘導分布強化学習
- Authors: Ju-Seung Byun, Andrew Perrault
- Abstract要約: 平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。
本稿では、マルコフ連鎖中心極限定理を用いて、値分布を略正規としてモデル化する。
本手法は,多数の連続制御タスクにおいてDRLベースラインよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 6.579039107070663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning a predictive model of the mean return, or value function, plays a
critical role in many reinforcement learning algorithms. Distributional
reinforcement learning (DRL) methods instead model the value distribution,
which has been shown to improve performance in many settings. In this paper, we
model the value distribution as approximately normal using the Markov Chain
central limit theorem. We analytically compute quantile bars to provide a new
DRL target that is informed by the decrease in standard deviation that occurs
over the course of an episode. In addition, we suggest an exploration strategy
based on how closely the learned value distribution resembles the target normal
distribution to make the value function more accurate for better policy
improvement. The approach we outline is compatible with many DRL structures. We
use proximal policy optimization as a testbed and show that both the
normality-guided target and exploration bonus produce performance improvements.
We demonstrate our method outperforms DRL baselines on a number of continuous
control tasks.
- Abstract(参考訳): 平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。
分散強化学習(DRL)法は、多くの設定で性能が向上することが示されている値分布をモデル化する。
本稿では、マルコフ連鎖中心極限定理を用いて、値分布を略正規としてモデル化する。
そこで本研究では,各エピソードにおける標準偏差の減少にともなう新しいDRLターゲットを提供するために,定量バーを解析的に計算する。
さらに,学習した値分布が対象の正規分布にどの程度近いかに基づく探索戦略を提案する。
我々が概説したアプローチは多くのDRL構造と互換性がある。
テストベッドとして近似ポリシー最適化を用い,正常度誘導目標と探索ボーナスの両方が性能改善をもたらすことを示す。
本手法は,多数の連続制御タスクにおいてDRLベースラインよりも優れた性能を示す。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布保証が消えることを示し,推定分布が急速に崩壊して平均推定値が崩壊することを実証的に観察する。
提案手法は,$L$の学習効率を生かして,返却分布の予測値と量子化値とを協調的に学習し,返却分布の完全な分布を推定し,効率的な学習を可能にするものである。
論文 参考訳(メタデータ) (2023-05-26T12:30:05Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Exploration with Multi-Sample Target Values for Distributional
Reinforcement Learning [20.680417111485305]
分散RLのマルチサンプル目標値(MTV)を,単一サンプル目標値推定の原則的代替として導入する。
改良された分布推定は UCB ベースの探査に寄与する。
我々は,一連の連続制御タスクに対するアプローチを評価し,ヒューマノイド制御のような難易度の高いタスクに対して,最先端のモデルフリー性能を示す。
論文 参考訳(メタデータ) (2022-02-06T03:27:05Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。