論文の概要: Support-weighted Adversarial Imitation Learning
- arxiv url: http://arxiv.org/abs/2002.08803v1
- Date: Thu, 20 Feb 2020 15:34:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 06:48:39.324654
- Title: Support-weighted Adversarial Imitation Learning
- Title(参考訳): 支援重み付き対人模倣学習
- Authors: Ruohan Wang, Carlo Ciliberto, Pierluigi Amadori, Yiannis Demiris
- Abstract要約: Adversarial Imitation Learning (AIL) は、実証から専門家の行動を模倣する模倣学習手法のファミリーである。
本稿では,AILアルゴリズムを拡張した汎用フレームワークであるSupport-weighted Adversarial Imitation Learning (SAIL)を提案する。
提案手法は,幅広いベンチマーク制御タスクにおいて,ベースライン法よりも性能とトレーニングの安定性が向上することを示す。
- 参考スコア(独自算出の注目度): 39.42395724783555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial Imitation Learning (AIL) is a broad family of imitation learning
methods designed to mimic expert behaviors from demonstrations. While AIL has
shown state-of-the-art performance on imitation learning with only small number
of demonstrations, it faces several practical challenges such as potential
training instability and implicit reward bias. To address the challenges, we
propose Support-weighted Adversarial Imitation Learning (SAIL), a general
framework that extends a given AIL algorithm with information derived from
support estimation of the expert policies. SAIL improves the quality of the
reinforcement signals by weighing the adversarial reward with a confidence
score from support estimation of the expert policy. We also show that SAIL is
always at least as efficient as the underlying AIL algorithm that SAIL uses for
learning the adversarial reward. Empirically, we show that the proposed method
achieves better performance and training stability than baseline methods on a
wide range of benchmark control tasks.
- Abstract(参考訳): Adversarial Imitation Learning (AIL) は、実証から専門家の行動を模倣する模擬学習手法である。
AILは、少数のデモンストレーションで模倣学習に最先端のパフォーマンスを示してきたが、潜在的なトレーニング不安定性や暗黙の報酬バイアスなど、いくつかの実践的な課題に直面している。
この課題に対処するために、専門家のポリシーを推定する支援から得られる情報を用いて、与えられたAILアルゴリズムを拡張した一般的なフレームワークであるSAIL(Support-weighted Adversarial Imitation Learning)を提案する。
SAILは、専門家ポリシーの支持評価から、敵の報酬を信頼スコアで評価することにより、強化信号の品質を向上させる。
また、SAILは、敵の報酬を学習するためにSAILが使用する基礎となるAILアルゴリズムと同程度に効率的であることを示す。
実験により,提案手法は,幅広いベンチマーク制御タスクにおいて,ベースライン法よりも優れた性能と訓練安定性を実現することを示す。
関連論文リスト
- Inverse-RLignment: Inverse Reinforcement Learning from Demonstrations for LLM Alignment [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - Sample-efficient Adversarial Imitation Learning [45.400080101596956]
状態と行動表現を学習するための自己教師付き表現に基づく対向的模倣学習法を提案する。
本研究は,M MuJoCo上での既存対向模倣学習法に対して,100対の専門的状態-作用ペアに制限された設定で相対的に39%改善したことを示す。
論文 参考訳(メタデータ) (2023-03-14T12:36:01Z) - Imitating Past Successes can be Very Suboptimal [145.70788608016755]
既存の結果条件付き模倣学習手法が必ずしもポリシーを改善できないことを示す。
簡単な修正が、政策改善を保証する方法をもたらすことを示す。
我々の目的は、全く新しい方法を開発するのではなく、成果条件付き模倣学習の変種が報酬を最大化するためにどのように使用できるかを説明することである。
論文 参考訳(メタデータ) (2022-06-07T15:13:43Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Confidence-Aware Imitation Learning from Demonstrations with Varying
Optimality [30.51436098631477]
信頼を意識した模倣学習(CAIL)は、信頼を重んじたデモンストレーションから優れた政策を学ぶ。
本稿では,CAILの収束に関する理論的保証と,シミュレーションおよび実ロボット実験における性能評価を行う。
論文 参考訳(メタデータ) (2021-10-27T20:29:38Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - GAN-Based Interactive Reinforcement Learning from Demonstration and
Human Evaluative Feedback [6.367592686247906]
本稿では,実演と人的評価フィードバックからganベースインタラクティブ強化学習(gairl)を提案する。
提案手法を6つの物理制御タスクで検証した。
論文 参考訳(メタデータ) (2021-04-14T02:58:51Z) - Self-Imitation Advantage Learning [43.8107780378031]
自己模倣学習は、期待以上のリターンのアクションを奨励する強化学習方法です。
本稿では,ベルマン最適性演算子を改変したオフポリシーRLの自己模倣学習の新たな一般化を提案する。
論文 参考訳(メタデータ) (2020-12-22T13:21:50Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。