論文の概要: Extraneousness-Aware Imitation Learning
- arxiv url: http://arxiv.org/abs/2210.01379v1
- Date: Tue, 4 Oct 2022 04:42:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:58:57.223484
- Title: Extraneousness-Aware Imitation Learning
- Title(参考訳): 偶発的模倣学習
- Authors: Ray Chen Zheng, Kaizhe Hu, Zhecheng Yuan, Boyuan Chen, Huazhe Xu
- Abstract要約: Extraneousness-Aware Learning (EIL)は、外部サブシーケンスを用いた第三者によるデモンストレーションから、ビズモタポリシーを学ぶ。
EILは、自己監督された方法で行動条件付き観察埋め込みを学習し、視覚的なデモンストレーション全体にわたってタスク関連観測を検索する。
実験の結果、EILは強いベースラインを上回り、完璧なデモで訓練した人たちと同等のポリシーを達成していることがわかった。
- 参考スコア(独自算出の注目度): 25.60384350984274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual imitation learning provides an effective framework to learn skills
from demonstrations. However, the quality of the provided demonstrations
usually significantly affects the ability of an agent to acquire desired
skills. Therefore, the standard visual imitation learning assumes near-optimal
demonstrations, which are expensive or sometimes prohibitive to collect.
Previous works propose to learn from noisy demonstrations; however, the noise
is usually assumed to follow a context-independent distribution such as a
uniform or gaussian distribution. In this paper, we consider another crucial
yet underexplored setting -- imitation learning with task-irrelevant yet
locally consistent segments in the demonstrations (e.g., wiping sweat while
cutting potatoes in a cooking tutorial). We argue that such noise is common in
real world data and term them "extraneous" segments. To tackle this problem, we
introduce Extraneousness-Aware Imitation Learning (EIL), a self-supervised
approach that learns visuomotor policies from third-person demonstrations with
extraneous subsequences. EIL learns action-conditioned observation embeddings
in a self-supervised manner and retrieves task-relevant observations across
visual demonstrations while excluding the extraneous ones. Experimental results
show that EIL outperforms strong baselines and achieves comparable policies to
those trained with perfect demonstration on both simulated and real-world robot
control tasks. The project page can be found at
https://sites.google.com/view/eil-website.
- Abstract(参考訳): 視覚模倣学習は、デモからスキルを学ぶための効果的なフレームワークを提供する。
しかし、提供されたデモの質は、通常エージェントが望ましいスキルを習得する能力に大きく影響する。
したがって、標準的な視覚模倣学習は、高価で時には収集が禁止される、ほぼ最適のデモンストレーションを前提としている。
以前の研究はノイズのデモから学ぶことを提案しているが、ノイズは通常、一様分布やガウス分布のような文脈に依存しない分布に従うと仮定される。
本稿では,実験においてタスクに無関係かつ局所的に一貫性のあるセグメント(例えば,料理のチュートリアルでジャガイモを切断しながら汗を拭くなど)を用いた模倣学習について検討する。
このようなノイズは現実世界のデータでは一般的であり、"extraneous"セグメントと呼ぶ。
この問題に対処するため,我々は,第三者によるデモから自発的政策を学ぶための自己教師付きアプローチであるeil(extraneousness-aware imitation learning)を導入する。
eilは、アクションコンディションによる観察埋め込みを自己教師方式で学習し、視覚的なデモンストレーションを通じてタスク関連の観察を検索し、余計な観察を除外する。
実験の結果、eilは強力なベースラインを上回っており、シミュレーションと実世界のロボット制御タスクの両方で完璧にデモンストレーションされた者と同等のポリシーを達成していることがわかった。
プロジェクトページはhttps://sites.google.com/view/eil-websiteにある。
関連論文リスト
- Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Leveraging Demonstrations with Latent Space Priors [90.56502305574665]
本稿では,スキル学習とシーケンスモデリングを組み合わせることで,実演データセットを活用することを提案する。
本研究では、国家のみのモーションキャプチャーの実証から、そのような先行情報をどうやって取得するかを示し、政策学習に組み込むためのいくつかの方法を探る。
実験結果から, 学習速度と最終性能において, 遅延空間が顕著に向上することが確認された。
論文 参考訳(メタデータ) (2022-10-26T13:08:46Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Learning Feasibility to Imitate Demonstrators with Different Dynamics [23.239058855103067]
実演から学ぶことのゴールは、実演の動作を模倣してエージェント(模倣者)のポリシーを学ぶことである。
我々は、実演が模倣者によって実現可能である可能性を捉えた実現可能性指標を学習する。
シミュレーションされた4つの環境と実際のロボットを用いた実験により,本手法で学んだ方針が,従来よりも期待されたリターンを達成できることが判明した。
論文 参考訳(メタデータ) (2021-10-28T14:15:47Z) - Playful Interactions for Representation Learning [82.59215739257104]
本稿では,下流タスクの視覚的表現を学習するために,遊び心のあるインタラクションを自己指導的に利用することを提案する。
19の多様な環境で2時間の遊び心のあるデータを収集し、自己予測学習を用いて視覚的表現を抽出する。
我々の表現は、標準的な行動クローニングよりも一般化され、必要なデモの半数しか必要とせず、同様の性能を達成できる。
論文 参考訳(メタデータ) (2021-07-19T17:54:48Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Robust Maximum Entropy Behavior Cloning [15.713997170792842]
模倣学習(il)アルゴリズムは、特定のタスクを学ぶために専門家のデモンストレーションを使用する。
既存のアプローチのほとんどは、すべての専門家によるデモンストレーションは信頼性と信頼性を前提としていますが、もし与えられたデータセットに敵対的なデモが存在するとしたらどうでしょう?
敵対するデモを自律的に検出し、データセットから除外するデモからポリシーを直接生成する、新しい一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-04T22:08:46Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。