論文の概要: Learning Pessimism for Robust and Efficient Off-Policy Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2110.03375v1
- Date: Thu, 7 Oct 2021 12:13:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 16:06:42.156193
- Title: Learning Pessimism for Robust and Efficient Off-Policy Reinforcement
Learning
- Title(参考訳): ロバストで効率的なオフポリティ強化学習のための悲観的学習
- Authors: Edoardo Cetin, Oya Celiktutan
- Abstract要約: 時間差学習における過大評価バイアスを補償するオフポリティ深い強化学習アルゴリズム。
そこで本研究では,このような悲観主義を実践するために,新たな学習可能なペナルティを提案する。
また,2つのTD学習で批判者とともにペナルティを学習することを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Popular off-policy deep reinforcement learning algorithms compensate for
overestimation bias during temporal-difference learning by utilizing
pessimistic estimates of the expected target returns. In this work, we propose
a novel learnable penalty to enact such pessimism, based on a new way to
quantify the critic's epistemic uncertainty. Furthermore, we propose to learn
the penalty alongside the critic with dual TD-learning, a strategy to estimate
and minimize the bias magnitude in the target returns. Our method enables us to
accurately counteract overestimation bias throughout training without incurring
the downsides of overly pessimistic targets. Empirically, by integrating our
method and other orthogonal improvements with popular off-policy algorithms, we
achieve state-of-the-art results in continuous control tasks from both
proprioceptive and pixel observations.
- Abstract(参考訳): 一般的なオフポリシー深層強化学習アルゴリズムは、期待された目標リターンの悲観的推定を利用して、時間拡散学習中の過大評価バイアスを補償する。
本研究では,批判者の認識の不確かさを定量化する新しい方法に基づいて,このような悲観主義を実践するための新しい学習可能なペナルティを提案する。
さらに,ターゲットリターンのバイアスの大きさを推定し最小化するための戦略であるdual td-learningを用いて,批判者とともにペナルティを学ぶことを提案する。
本手法は,過度に悲観的な目標の欠点を伴わずに,トレーニングを通して過大評価バイアスを正確に対処できる。
経験的に、本手法と他の直交的改良を一般的なオフポリシーアルゴリズムと統合することにより、プロピオセプティブとピクセルの観察から連続的な制御タスクを実現する。
関連論文リスト
- Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning [11.084321518414226]
我々は,既存の重要度・重要度比推定手法をオフ政治評価に適用し,いわゆる後見政策手法の安定性と効率を大幅に向上させる。
我々の後視分布補正は、信用代入がベースライン手法を悩ませている広範囲の環境において、安定的で効率的な学習を容易にする。
論文 参考訳(メタデータ) (2023-07-21T20:54:52Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Estimation Error Correction in Deep Reinforcement Learning for
Deterministic Actor-Critic Methods [0.0]
価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。
過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号に高いばらつきがある場合,顕著な過大評価バイアスが発生することを示す。
過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T13:49:35Z) - Unifying Gradient Estimators for Meta-Reinforcement Learning via
Off-Policy Evaluation [53.83642844626703]
オフ・ポリシー評価に基づいて,高次値関数の高次微分を推定するための統一フレームワークを提供する。
本フレームワークは, ヘッセン推定の偏りと分散トレードオフを解明する特別事例として, 多くの先行的アプローチを解釈する。
論文 参考訳(メタデータ) (2021-06-24T15:58:01Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。