論文の概要: Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations
- arxiv url: http://arxiv.org/abs/2306.07919v1
- Date: Tue, 13 Jun 2023 17:24:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 12:33:13.524306
- Title: Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations
- Title(参考訳): 準最適演示からの模倣学習のためのスキルディスタングル
- Authors: Tianxiang Zhao, Wenchao Yu, Suhang Wang, Lu Wang, Xiang Zhang, Yuncong
Chen, Yanchi Liu, Wei Cheng, Haifeng Chen
- Abstract要約: 我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
- 参考スコア(独自算出の注目度): 60.241144377865716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning has achieved great success in many sequential
decision-making tasks, in which a neural agent is learned by imitating
collected human demonstrations. However, existing algorithms typically require
a large number of high-quality demonstrations that are difficult and expensive
to collect. Usually, a trade-off needs to be made between demonstration quality
and quantity in practice. Targeting this problem, in this work we consider the
imitation of sub-optimal demonstrations, with both a small clean demonstration
set and a large noisy set. Some pioneering works have been proposed, but they
suffer from many limitations, e.g., assuming a demonstration to be of the same
optimality throughout time steps and failing to provide any interpretation
w.r.t knowledge learned from the noisy set. Addressing these problems, we
propose {\method} by evaluating and imitating at the sub-demonstration level,
encoding action primitives of varying quality into different skills.
Concretely, {\method} consists of a high-level controller to discover skills
and a skill-conditioned module to capture action-taking policies, and is
trained following a two-phase pipeline by first discovering skills with all
demonstrations and then adapting the controller to only the clean set. A
mutual-information-based regularization and a dynamic sub-demonstration
optimality estimator are designed to promote disentanglement in the skill
space. Extensive experiments are conducted over two gym environments and a
real-world healthcare dataset to demonstrate the superiority of {\method} in
learning from sub-optimal demonstrations and its improved interpretability by
examining learned skills.
- Abstract(参考訳): 模倣学習は多くの連続的な意思決定タスクで大きな成功を収めており、収集された人間のデモンストレーションを模倣して神経エージェントを学習している。
しかし、既存のアルゴリズムは通常、収集が困難で高価である大量の高品質なデモを必要とする。
通常、実演の品質と量の間でトレードオフを行う必要がある。
この問題を対象として,本研究では,小さなクリーンなデモンストレーションセットと大きなノイズのセットの両方を用いて,サブオプティカルなデモンストレーションの模倣を検討する。
いくつかの先駆的作品が提案されているが、例えば、デモンストレーションが時間ステップを通して同じ最適性を持つと仮定し、ノイズ集合から学んだw.r.tの知識を解釈できないなど、多くの制限に苦しめられている。
これらの問題に対処し,サブ・デモンストレーションレベルで評価・模倣し,様々な品質の動作プリミティブを異なるスキルにエンコードすることで, {\method} を提案する。
具体的には、スキルを発見するためのハイレベルなコントローラと、アクションテイクポリシーを捉えるためのスキル条件付きモジュールで構成されており、まずすべてのデモでスキルを発見し、次にコントローラをクリーンなセットだけに適応させることで、2フェーズパイプラインに従ってトレーニングされる。
スキル空間における絡み合いを促進するために、相互情報に基づく正規化と動的サブデモストレーション最適度推定器を設計する。
2つのジム環境と現実世界の医療データセットを用いて大規模な実験を行い、準最適実験から学ぶ際の「メソッド」の優位性と、学習スキルを検査することで解釈可能性の向上を実証する。
関連論文リスト
- Learning to Discern: Imitating Heterogeneous Human Demonstrations with
Preference and Representation Learning [12.4468604987226]
本稿では、様々な品質とスタイルのデモンストレーションから学習するオフラインの模倣学習フレームワークであるL2Dについて紹介する。
本研究では,L2Dが様々な実演から効果的に評価・学習できることを示す。
論文 参考訳(メタデータ) (2023-10-22T06:08:55Z) - Eliciting Compatible Demonstrations for Multi-Human Imitation Learning [16.11830547863391]
人間による実演からの模倣学習は、ロボット操作の学習ポリシーに対する強力なアプローチである。
自然の人間の行動は、タスクを示すのに最適な方法がいくつかあるため、多くの異種性を持っている。
このミスマッチは、インタラクティブな模倣学習の課題であり、ユーザのシーケンスは、新しい、おそらく矛盾するデモを反復的に収集することによって、ポリシーを改善する。
我々は、ポストホックフィルタリングにより互換性のないデモを識別し、新しいユーザから互換性のないデモを積極的に引き出すために互換性対策を適用することができることを示す。
論文 参考訳(メタデータ) (2022-10-14T19:37:55Z) - Extraneousness-Aware Imitation Learning [25.60384350984274]
Extraneousness-Aware Learning (EIL)は、外部サブシーケンスを用いた第三者によるデモンストレーションから、ビズモタポリシーを学ぶ。
EILは、自己監督された方法で行動条件付き観察埋め込みを学習し、視覚的なデモンストレーション全体にわたってタスク関連観測を検索する。
実験の結果、EILは強いベースラインを上回り、完璧なデモで訓練した人たちと同等のポリシーを達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-04T04:42:26Z) - Imitation Learning by Estimating Expertise of Demonstrators [92.20185160311036]
実証的知識よりも教師なし学習が模倣学習アルゴリズムの性能を一貫した向上に繋がることを示す。
デモ参加者の学習した方針や専門知識に基づいて,共同モデルを開発・最適化する。
本研究は,ミニグリッドやチェスなど,ロブミミックや離散環境からの実ロボット的連続制御タスクについて述べる。
論文 参考訳(メタデータ) (2022-02-02T21:23:19Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。