論文の概要: Curriculum-Based Imitation of Versatile Skills
- arxiv url: http://arxiv.org/abs/2304.05171v1
- Date: Tue, 11 Apr 2023 12:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 15:03:19.266625
- Title: Curriculum-Based Imitation of Versatile Skills
- Title(参考訳): カリキュラムによるVersatile Skillの模倣
- Authors: Maximilian Xiling Li, Onur Celik, Philipp Becker, Denis Blessing,
Rudolf Lioutikov, Gerhard Neumann
- Abstract要約: 模倣による学習スキルは、ロボットの直感的な教育にとって有望な概念である。
このようなスキルを学ぶ一般的な方法は、デモが与えられた可能性の最大化によってパラメトリックモデルを学ぶことである。
しかし、人間のデモンストレーションはしばしばマルチモーダルであり、同じタスクは複数の方法で解決される。
- 参考スコア(独自算出の注目度): 15.97723808124603
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learning skills by imitation is a promising concept for the intuitive
teaching of robots. A common way to learn such skills is to learn a parametric
model by maximizing the likelihood given the demonstrations. Yet, human
demonstrations are often multi-modal, i.e., the same task is solved in multiple
ways which is a major challenge for most imitation learning methods that are
based on such a maximum likelihood (ML) objective. The ML objective forces the
model to cover all data, it prevents specialization in the context space and
can cause mode-averaging in the behavior space, leading to suboptimal or
potentially catastrophic behavior. Here, we alleviate those issues by
introducing a curriculum using a weight for each data point, allowing the model
to specialize on data it can represent while incentivizing it to cover as much
data as possible by an entropy bonus. We extend our algorithm to a Mixture of
(linear) Experts (MoE) such that the single components can specialize on local
context regions, while the MoE covers all data points. We evaluate our approach
in complex simulated and real robot control tasks and show it learns from
versatile human demonstrations and significantly outperforms current SOTA
methods. A reference implementation can be found at
https://github.com/intuitive-robots/ml-cur
- Abstract(参考訳): 模倣による学習技術はロボットの直感的な教育に有望な概念である。
そのようなスキルを学ぶ一般的な方法は、デモンストレーションの確率を最大化することでパラメトリックモデルを学ぶことである。
しかし、人間の実演はしばしばマルチモーダルであり、同じタスクは複数の方法で解決され、このような最大可能性(ML)の目的に基づくほとんどの模倣学習手法にとって大きな課題である。
mlの目的は、モデルにすべてのデータをカバーするように強制し、コンテキスト空間の特殊化を防止し、動作空間におけるモード平均化を引き起こす可能性がある。
ここでは,各データポイントに重みを用いたカリキュラムを導入し,モデルが表現可能なデータに特化しつつ,エントロピーボーナスによって可能な限り多くのデータをカバーするインセンティブを付与することで,これらの問題を緩和する。
我々はアルゴリズムを(線形)エキスパートの混合(Mixture of (linear) Experts (MoE))に拡張し、単一のコンポーネントがローカルなコンテキスト領域に特化できるようにし、MoEはすべてのデータポイントをカバーする。
我々は,複雑なシミュレーションと実ロボット制御タスクにおけるアプローチを評価し,多目的な人間の実演から学習し,現在のSOTA法を著しく上回っていることを示す。
リファレンス実装はhttps://github.com/intuitive-robots/ml-curにある。
関連論文リスト
- EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning [36.0274770291531]
本研究では,ロボット操作タスク学習のための頑健で,データ効率が高く,汎用的なアプローチであるEquibotを提案する。
提案手法は,SIM(3)等価なニューラルネットワークアーキテクチャと拡散モデルを組み合わせたものである。
本手法は,5分間の人間による実演から学ぶことで,新しい物体やシーンに容易に一般化できることが示唆された。
論文 参考訳(メタデータ) (2024-07-01T17:09:43Z) - Video-Language Critic: Transferable Reward Functions for Language-Conditioned Robotics [25.2461925479135]
Video-Language Criticは、簡単に利用可能なクロスボディデータに基づいてトレーニングできる報酬モデルである。
我々のモデルは、スパース報酬のみよりもメタワールドタスクにおける2倍のサンプル効率のポリシートレーニングを可能にします。
論文 参考訳(メタデータ) (2024-05-30T12:18:06Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Exploring intra-task relations to improve meta-learning algorithms [1.223779595809275]
我々は,タスクの効果的なミニバッチによるトレーニング安定性向上のために,タスク関係の外部知識を活用することを目的としている。
ミニバッチでタスクの多様なセットを選択すると、完全な勾配がより良く見積もられるため、トレーニングにおけるノイズの低減につながる、という仮説を立てる。
論文 参考訳(メタデータ) (2023-12-27T15:33:52Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Information Maximizing Curriculum: A Curriculum-Based Approach for
Imitating Diverse Skills [14.685043874797742]
本稿では,各データポイントに重みを割り当て,表現可能なデータに特化するようにモデルに促すカリキュラムベースのアプローチを提案する。
すべてのモードをカバーし、多様な振る舞いを可能にするため、我々は、各ミックスコンポーネントが学習のためのトレーニングデータの独自のサブセットを選択する、専門家(MoE)ポリシーの混合にアプローチを拡張します。
データセットの完全なカバレッジを実現するために,新たな最大エントロピーに基づく目標を提案する。
論文 参考訳(メタデータ) (2023-03-27T16:02:50Z) - Masked Imitation Learning: Discovering Environment-Invariant Modalities
in Multimodal Demonstrations [37.33625951008865]
外部データモダリティは、状態の過剰な特定につながる可能性がある。
状態の過度な特定は、トレーニングデータ配布の外部を一般化しない学習ポリシーのような問題につながる。
我々はこのマスクを学習し、過度に特定されたモダリティを正確にフィルタする二段階最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-09-16T02:45:13Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。