論文の概要: Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency
- arxiv url: http://arxiv.org/abs/2112.06054v1
- Date: Sat, 11 Dec 2021 19:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 18:26:17.605171
- Title: Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency
- Title(参考訳): 決定論的・差別的模倣(D2-Imitation) : サンプル効率に対する対立的模倣の再考
- Authors: Mingfei Sun, Sam Devlin, Katja Hofmann and Shimon Whiteson
- Abstract要約: 本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
- 参考スコア(独自算出の注目度): 61.03922379081648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sample efficiency is crucial for imitation learning methods to be applicable
in real-world applications. Many studies improve sample efficiency by extending
adversarial imitation to be off-policy regardless of the fact that these
off-policy extensions could either change the original objective or involve
complicated optimization. We revisit the foundation of adversarial imitation
and propose an off-policy sample efficient approach that requires no
adversarial training or min-max optimization. Our formulation capitalizes on
two key insights: (1) the similarity between the Bellman equation and the
stationary state-action distribution equation allows us to derive a novel
temporal difference (TD) learning approach; and (2) the use of a deterministic
policy simplifies the TD learning. Combined, these insights yield a practical
algorithm, Deterministic and Discriminative Imitation (D2-Imitation), which
operates by first partitioning samples into two replay buffers and then
learning a deterministic policy via off-policy reinforcement learning. Our
empirical results show that D2-Imitation is effective in achieving good sample
efficiency, outperforming several off-policy extension approaches of
adversarial imitation on many control tasks.
- Abstract(参考訳): サンプル効率は実世界の応用に適用できる模擬学習法に不可欠である。
多くの研究は、これらのオフ・ポリティクス拡張が元の目的を変えるか複雑な最適化を必要とするかに関わらず、逆の模倣をオフ・ポリティカルに拡張することでサンプルの効率を向上させる。
我々は, 敵意模倣の基礎を再検討し, 敵意訓練やmin-max最適化を必要としない, オフポリシーサンプル効率的なアプローチを提案する。
本定式化は,(1)ベルマン方程式と定常状態-作用分布方程式の類似性により,新しい時間差(TD)学習アプローチを導出し,(2)決定論的政策を用いることで,TD学習を単純化する。
これらの洞察を組み合わせることで、実用的なアルゴリズム、決定論的および判別的模倣(d2-模倣)が生まれ、まずサンプルを2つのリプレイバッファに分割し、それからオフポリシー強化学習を通じて決定論的ポリシーを学ぶ。
実験の結果, D2-Imitation は, 多数の制御タスクにおいて, 対人模倣の非政治的拡張アプローチよりも優れていることがわかった。
関連論文リスト
- Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Distillation Policy Optimization [5.439020425819001]
本研究では,評価と制御の両面において2つのデータソースを調和させるアクタ批判学習フレームワークを提案する。
このフレームワークには、統一利便推定器(UAE)と残留基線を含む分散還元機構が組み込まれている。
以上の結果から,オンラインアルゴリズムのサンプル効率は大幅に向上し,非政治的アプローチとのギャップを効果的に埋めることができた。
論文 参考訳(メタデータ) (2023-02-01T15:59:57Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。