論文の概要: Imitation Learning by Estimating Expertise of Demonstrators
- arxiv url: http://arxiv.org/abs/2202.01288v1
- Date: Wed, 2 Feb 2022 21:23:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 14:23:43.296719
- Title: Imitation Learning by Estimating Expertise of Demonstrators
- Title(参考訳): デモ参加者の熟練度推定による模倣学習
- Authors: Mark Beliaev, Andy Shih, Stefano Ermon, Dorsa Sadigh, Ramtin Pedarsani
- Abstract要約: 実証的知識よりも教師なし学習が模倣学習アルゴリズムの性能を一貫した向上に繋がることを示す。
デモ参加者の学習した方針や専門知識に基づいて,共同モデルを開発・最適化する。
本研究は,ミニグリッドやチェスなど,ロブミミックや離散環境からの実ロボット的連続制御タスクについて述べる。
- 参考スコア(独自算出の注目度): 92.20185160311036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many existing imitation learning datasets are collected from multiple
demonstrators, each with different expertise at different parts of the
environment. Yet, standard imitation learning algorithms typically treat all
demonstrators as homogeneous, regardless of their expertise, absorbing the
weaknesses of any suboptimal demonstrators. In this work, we show that
unsupervised learning over demonstrator expertise can lead to a consistent
boost in the performance of imitation learning algorithms. We develop and
optimize a joint model over a learned policy and expertise levels of the
demonstrators. This enables our model to learn from the optimal behavior and
filter out the suboptimal behavior of each demonstrator. Our model learns a
single policy that can outperform even the best demonstrator, and can be used
to estimate the expertise of any demonstrator at any state. We illustrate our
findings on real-robotic continuous control tasks from Robomimic and discrete
environments such as MiniGrid and chess, out-performing competing methods in
$21$ out of $23$ settings, with an average of $7\%$ and up to $60\%$
improvement in terms of the final reward.
- Abstract(参考訳): 多くの既存の模倣学習データセットは、複数の実証者から収集され、それぞれが環境の異なる場所で異なる専門知識を持っている。
しかし、標準的な模倣学習アルゴリズムは、通常、すべてのデモストレーターを専門知識に関係なく均質に扱い、任意の準最適デモストレーターの弱点を吸収する。
本研究では,実証者の専門知識よりも教師なしの学習が模倣学習アルゴリズムの性能を一貫した向上に繋がることを示す。
デモ参加者の学習した方針や専門知識に基づいて,共同モデルを開発・最適化する。
これにより,モデルが最適動作から学習し,各実証者の最適動作をフィルタリングすることが可能になる。
我々のモデルは、最高の実証者でも優れた成績を上げることができる単一のポリシーを学習し、あらゆる状態において、あらゆる実証者の専門知識を見積もることができる。
我々は、ロブミミックやミニグリッドやチェスのような離散的な環境からの実際のロボット的連続制御タスクについて、23ドル設定中21ドル(約2万2000円)で競合する手法を上回り、最終的な報酬としては平均7ドル(約7万2000円)、最大60ドル(約6万3000円)で改善した。
関連論文リスト
- Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Sample-efficient Adversarial Imitation Learning [45.400080101596956]
状態と行動表現を学習するための自己教師付き表現に基づく対向的模倣学習法を提案する。
本研究は,M MuJoCo上での既存対向模倣学習法に対して,100対の専門的状態-作用ペアに制限された設定で相対的に39%改善したことを示す。
論文 参考訳(メタデータ) (2023-03-14T12:36:01Z) - Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文 参考訳(メタデータ) (2023-02-13T11:26:44Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Confidence-Aware Imitation Learning from Demonstrations with Varying
Optimality [30.51436098631477]
信頼を意識した模倣学習(CAIL)は、信頼を重んじたデモンストレーションから優れた政策を学ぶ。
本稿では,CAILの収束に関する理論的保証と,シミュレーションおよび実ロボット実験における性能評価を行う。
論文 参考訳(メタデータ) (2021-10-27T20:29:38Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Intrinsic Reward Driven Imitation Learning via Generative Model [48.97800481338626]
ほとんどの逆強化学習(IRL)法は、高次元環境下では実証者よりも優れていない。
生成モデルを用いて固有報酬信号を生成するための新たな報奨学習モジュールを提案する。
実験結果から,本手法は,一生のデモンストレーションであっても,複数のアタリゲームにおいて最先端のIRL法よりも優れることが示された。
論文 参考訳(メタデータ) (2020-06-26T15:39:40Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。