論文の概要: Data-efficient Hindsight Off-policy Option Learning
- arxiv url: http://arxiv.org/abs/2007.15588v2
- Date: Tue, 15 Jun 2021 15:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 13:14:50.858030
- Title: Data-efficient Hindsight Off-policy Option Learning
- Title(参考訳): データ効率のよいオフ政治オプション学習
- Authors: Markus Wulfmeier, Dushyant Rao, Roland Hafner, Thomas Lampe, Abbas
Abdolmaleki, Tim Hertweck, Michael Neunert, Dhruva Tirumala, Noah Siegel,
Nicolas Heess, Martin Riedmiller
- Abstract要約: データ効率のよいオプション学習アルゴリズムであるHendsight Off-policy Options (HO2)を導入する。
それは、すべての政策コンポーネントを、政治とエンドツーエンドで堅牢に訓練する。
このアプローチは、一般的なベンチマークで既存のオプション学習方法よりも優れています。
- 参考スコア(独自算出の注目度): 20.42535406663446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Hindsight Off-policy Options (HO2), a data-efficient option
learning algorithm. Given any trajectory, HO2 infers likely option choices and
backpropagates through the dynamic programming inference procedure to robustly
train all policy components off-policy and end-to-end. The approach outperforms
existing option learning methods on common benchmarks. To better understand the
option framework and disentangle benefits from both temporal and action
abstraction, we evaluate ablations with flat policies and mixture policies with
comparable optimization. The results highlight the importance of both types of
abstraction as well as off-policy training and trust-region constraints,
particularly in challenging, simulated 3D robot manipulation tasks from raw
pixel inputs. Finally, we intuitively adapt the inference step to investigate
the effect of increased temporal abstraction on training with pre-trained
options and from scratch.
- Abstract(参考訳): データ効率のよいオプション学習アルゴリズムであるHendsight Off-policy Options (HO2)を導入する。
任意の軌道が与えられた場合、HO2はオプションの選択を推測し、動的プログラミング推論手順を通じてバックプロパゲーションを行い、すべてのポリシーコンポーネントをポリティとエンドツーエンドで堅牢にトレーニングする。
このアプローチは、一般的なベンチマークで既存のオプション学習手法を上回っている。
選択肢フレームワークの理解を深め、時間的および行動的抽象化の利点を解消するために、フラットポリシーによるアブレーションと、同等の最適化による混合ポリシーを評価した。
その結果、両タイプの抽象化の重要性と、オフポリシートレーニングと信頼領域の制約が強調され、特に生のピクセル入力から3dロボット操作の課題をシミュレートした。
最後に,時間的抽象度の増加が事前学習とスクラッチによるトレーニングに与える影響を直感的に検討する。
関連論文リスト
- Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Multi-Task Option Learning and Discovery for Stochastic Path Planning [27.384742641275228]
本稿では,長距離経路計画問題の幅広いクラスを確実かつ効率的に解決する問題に対処する。
提案手法では,提案したオプションを構成する高レベルパスだけでなく,ポリシによる有用なオプションも計算する。
このアプローチが実行可能性と解決可能性の強い保証をもたらすことを示す。
論文 参考訳(メタデータ) (2022-09-30T19:57:52Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Model Selection in Batch Policy Optimization [88.52887493684078]
バッチポリシー最適化におけるモデル選択の問題について検討する。
我々は,任意のモデル選択アルゴリズムが競争力を得るために最適にトレードオフすべきという誤りの3つの源を同定する。
論文 参考訳(メタデータ) (2021-12-23T02:31:50Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。