論文の概要: Off-Policy Imitation Learning from Observations
- arxiv url: http://arxiv.org/abs/2102.13185v1
- Date: Thu, 25 Feb 2021 21:33:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-02 04:45:37.212635
- Title: Off-Policy Imitation Learning from Observations
- Title(参考訳): 観察からの非政治模倣学習
- Authors: Zhuangdi Zhu, Kaixiang Lin, Bo Dai, Jiayu Zhou
- Abstract要約: 観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
- 参考スコア(独自算出の注目度): 78.30794935265425
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Learning from Observations (LfO) is a practical reinforcement learning
scenario from which many applications can benefit through the reuse of
incomplete resources. Compared to conventional imitation learning (IL), LfO is
more challenging because of the lack of expert action guidance. In both
conventional IL and LfO, distribution matching is at the heart of their
foundation. Traditional distribution matching approaches are sample-costly
which depend on on-policy transitions for policy learning. Towards
sample-efficiency, some off-policy solutions have been proposed, which,
however, either lack comprehensive theoretical justifications or depend on the
guidance of expert actions. In this work, we propose a sample-efficient LfO
approach that enables off-policy optimization in a principled manner. To
further accelerate the learning procedure, we regulate the policy update with
an inverse action model, which assists distribution matching from the
perspective of mode-covering. Extensive empirical results on challenging
locomotion tasks indicate that our approach is comparable with state-of-the-art
in terms of both sample-efficiency and asymptotic performance.
- Abstract(参考訳): 観察からの学習(LfO)は、多くのアプリケーションが不完全なリソースの再利用を通じて恩恵を受けることができる実用的な強化学習シナリオです。
従来の模倣学習 (IL) と比較して, LfO は専門家の行動指導が不足しているため, より困難である。
従来のILとLfOの両方において、流通マッチングは彼らの基盤の中心です。
従来の分散マッチングアプローチは、ポリシー学習のオンポリシ移行に依存するサンプルコストがかかります。
サンプル効率のために、いくつかのオフポリシーソリューションが提案されているが、包括的な理論的正当化が欠けているか、専門家の行動のガイダンスに依存している。
本研究では,オフポリシ最適化を原理的に実現するサンプル効率の高いLfO手法を提案する。
さらに学習手順を高速化するため、モード被覆の観点から分布マッチングを支援する逆アクションモデルを用いてポリシー更新を規制する。
本手法は, サンプル効率と漸近性能の両面で, 最先端技術に匹敵するものであることが示唆された。
関連論文リスト
- Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Preference-Guided Reinforcement Learning for Efficient Exploration [7.83845308102632]
LOPE: Learning Online with trajectory Preference guidancE, a end-to-end preference-guided RL framework。
我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。
LOPEは収束率と全体的な性能に関して、最先端のいくつかの手法より優れている。
論文 参考訳(メタデータ) (2024-07-09T02:11:12Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。