論文の概要: Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.11897v1
- Date: Fri, 21 Jul 2023 20:54:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 19:06:24.362556
- Title: Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning
- Title(参考訳): Hindsight-DICE: 深層強化学習のための安定したクレジットアサインメント
- Authors: Akash Velu, Skanda Vaidyanath, Dilip Arumugam
- Abstract要約: 本研究は、政策段階の方法による信用割当の取扱いを大幅に改善するため、オフ・ポリティクス評価のための既存の重要サンプリング比推定手法を活用する。
いわゆる「後見政策」は、観察された軌跡の返却に対する塩分による政治データの重み付けを原則としたメカニズムを提供する一方で、重要サンプリングの結果を不安定あるいは過度にラグした学習に適用する。
- 参考スコア(独自算出の注目度): 5.268039718884149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Oftentimes, environments for sequential decision-making problems can be quite
sparse in the provision of evaluative feedback to guide reinforcement-learning
agents. In the extreme case, long trajectories of behavior are merely
punctuated with a single terminal feedback signal, engendering a significant
temporal delay between the observation of non-trivial reward and the individual
steps of behavior culpable for eliciting such feedback. Coping with such a
credit assignment challenge is one of the hallmark characteristics of
reinforcement learning and, in this work, we capitalize on existing
importance-sampling ratio estimation techniques for off-policy evaluation to
drastically improve the handling of credit assignment with policy-gradient
methods. While the use of so-called hindsight policies offers a principled
mechanism for reweighting on-policy data by saliency to the observed trajectory
return, naively applying importance sampling results in unstable or excessively
lagged learning. In contrast, our hindsight distribution correction facilitates
stable, efficient learning across a broad range of environments where credit
assignment plagues baseline methods.
- Abstract(参考訳): 多くの場合、強化学習エージェントを指導するための評価フィードバックの提供においては、逐次的な意思決定問題のための環境は極めて少ない。
極端な場合、行動の長い軌跡はただ一つの終端フィードバック信号で句読されるだけであり、非自明な報酬の観察とそのようなフィードバックを導き出すための個々の行動ステップの間にかなりの時間的遅延が生じる。
このような信用割当課題に対処することは、強化学習の要点の一つであり、本研究では、既存の重要サンプリング比率推定手法をオフポリシー評価に活用し、信用割当の取扱いを政策段階の手法で劇的に改善する。
いわゆる「後見政策」は、観察された軌跡の返却に対する塩分による政治データの重み付けを原則としたメカニズムを提供する一方で、重要サンプリングの結果を不安定あるいは過度にラグした学習に適用する。
対照的に、私たちの後ろ向きの分散補正は、クレジット割り当てがベースラインメソッドを悩ませる幅広い環境において、安定して効率的な学習を促進する。
関連論文リスト
- Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。
継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step
Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。
本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文 参考訳(メタデータ) (2022-08-01T11:33:12Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Learning Pessimism for Robust and Efficient Off-Policy Reinforcement
Learning [0.0]
時間差学習における過大評価バイアスを補償するオフポリティ深い強化学習アルゴリズム。
そこで本研究では,このような悲観主義を実践するために,新たな学習可能なペナルティを提案する。
また,2つのTD学習で批判者とともにペナルティを学習することを提案する。
論文 参考訳(メタデータ) (2021-10-07T12:13:19Z) - Self-Imitation Advantage Learning [43.8107780378031]
自己模倣学習は、期待以上のリターンのアクションを奨励する強化学習方法です。
本稿では,ベルマン最適性演算子を改変したオフポリシーRLの自己模倣学習の新たな一般化を提案する。
論文 参考訳(メタデータ) (2020-12-22T13:21:50Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。