論文の概要: Skill or Luck? Return Decomposition via Advantage Functions
- arxiv url: http://arxiv.org/abs/2402.12874v1
- Date: Tue, 20 Feb 2024 10:09:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 15:55:42.544158
- Title: Skill or Luck? Return Decomposition via Advantage Functions
- Title(参考訳): スキルかラッキーか?
アドバンテージ機能による返却分解
- Authors: Hsiao-Ru Pan, Bernhard Sch\"olkopf
- Abstract要約: サンプル効率のよい強化学習には,非政治データからの学習が不可欠である。
その結果, 有利関数は, 反応が帰路に与える因果効果として理解できることが示唆された。
この分解により、直接アドバンテージ推定を外部設定に自然に拡張できます。
- 参考スコア(独自算出の注目度): 15.967056781224102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from off-policy data is essential for sample-efficient reinforcement
learning. In the present work, we build on the insight that the advantage
function can be understood as the causal effect of an action on the return, and
show that this allows us to decompose the return of a trajectory into parts
caused by the agent's actions (skill) and parts outside of the agent's control
(luck). Furthermore, this decomposition enables us to naturally extend Direct
Advantage Estimation (DAE) to off-policy settings (Off-policy DAE). The
resulting method can learn from off-policy trajectories without relying on
importance sampling techniques or truncating off-policy actions. We draw
connections between Off-policy DAE and previous methods to demonstrate how it
can speed up learning and when the proposed off-policy corrections are
important. Finally, we use the MinAtar environments to illustrate how ignoring
off-policy corrections can lead to suboptimal policy optimization performance.
- Abstract(参考訳): オフポリシーデータからの学習はサンプル効率のよい強化学習に不可欠である。
本研究は, フィードバックに対する作用の因果効果として有利関数が理解できるという知見に基づいて, エージェントの作用(スキル)によって引き起こされる部位とエージェントの制御(ラック)の外側の部分に軌道の復帰を分解できることを示す。
さらに,この分解により,直接利益推定(dae)をオフポリシー設定(オフポリシーdae)に自然に拡張することができる。
結果として得られる手法は、重要サンプリング技術やオフ・ポリティカル・アクションを中断することなく、オフ・ポリティカル・トラジェクタから学習することができる。
我々は,オフポリシーのdaeと,それ以前の手法とのつながりを示し,学習のスピードアップと,提案されたオフポリシーの修正が重要であることを実証する。
最後に、MinAtar環境を用いて、政策外の修正を無視することで、政策最適化の最適化性能が向上することを示す。
関連論文リスト
- Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Flow to Control: Offline Reinforcement Learning with Lossless Primitive
Discovery [31.49638957903016]
オフライン強化学習(RL)により、エージェントはログデータから効果的に学習することができる。
提案手法はポリシーの表現能力に優れ,多くのタスクにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-12-02T11:35:51Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Direct Advantage Estimation [63.52264764099532]
予測されるリターンは、学習を遅くする可能性のある望ましくない方法でポリシーに依存する可能性があることを示します。
本稿では,優位関数をモデル化し,データから直接推定する手法として,DAE(Direct Advantage Estimation)を提案する。
望むなら、値関数をDAEにシームレスに統合して、時間差学習と同様の方法で更新することもできる。
論文 参考訳(メタデータ) (2021-09-13T16:09:31Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Self-Imitation Advantage Learning [43.8107780378031]
自己模倣学習は、期待以上のリターンのアクションを奨励する強化学習方法です。
本稿では,ベルマン最適性演算子を改変したオフポリシーRLの自己模倣学習の新たな一般化を提案する。
論文 参考訳(メタデータ) (2020-12-22T13:21:50Z) - Faded-Experience Trust Region Policy Optimization for Model-Free Power
Allocation in Interference Channel [28.618312473850974]
政策強化学習技術により、エージェントは環境との相互作用を通じて最適な行動ポリシーを学習することができる。
人的意思決定のアプローチに触発されて、エージェントを増強して、最近学習したポリシーを記憶し、利用することで、収束速度の向上に取り組みます。
その結果,FE-TRPO では TRPO に比べて学習速度が約2倍になることがわかった。
論文 参考訳(メタデータ) (2020-08-04T17:12:29Z) - Data-efficient Hindsight Off-policy Option Learning [20.42535406663446]
データ効率のよいオプション学習アルゴリズムであるHendsight Off-policy Options (HO2)を導入する。
それは、すべての政策コンポーネントを、政治とエンドツーエンドで堅牢に訓練する。
このアプローチは、一般的なベンチマークで既存のオプション学習方法よりも優れています。
論文 参考訳(メタデータ) (2020-07-30T16:52:33Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。