論文の概要: Masked Imitation Learning: Discovering Environment-Invariant Modalities
in Multimodal Demonstrations
- arxiv url: http://arxiv.org/abs/2209.07682v1
- Date: Fri, 16 Sep 2022 02:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 13:34:08.908995
- Title: Masked Imitation Learning: Discovering Environment-Invariant Modalities
in Multimodal Demonstrations
- Title(参考訳): Masked Imitation Learning:マルチモーダルデモにおける環境不変モダリティの発見
- Authors: Yilun Hao, Ruinan Wang, Zhangjie Cao, Zihan Wang, Yuchen Cui, Dorsa
Sadigh
- Abstract要約: 外部データモダリティは、状態の過剰な特定につながる可能性がある。
状態の過度な特定は、トレーニングデータ配布の外部を一般化しない学習ポリシーのような問題につながる。
我々はこのマスクを学習し、過度に特定されたモダリティを正確にフィルタする二段階最適化アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 37.33625951008865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal demonstrations provide robots with an abundance of information to
make sense of the world. However, such abundance may not always lead to good
performance when it comes to learning sensorimotor control policies from human
demonstrations.
Extraneous data modalities can lead to state over-specification, where the
state contains modalities that are not only useless for decision-making but
also can change data distribution across environments. State over-specification
leads to issues such as the learned policy not generalizing outside of the
training data distribution.
In this work, we propose Masked Imitation Learning (MIL) to address state
over-specification by selectively using informative modalities. Specifically,
we design a masked policy network with a binary mask to block certain
modalities. We develop a bi-level optimization algorithm that learns this mask
to accurately filter over-specified modalities. We demonstrate empirically that
MIL outperforms baseline algorithms in simulated domains including MuJoCo and a
robot arm environment using the Robomimic dataset, and effectively recovers the
environment-invariant modalities on a multimodal dataset collected on a real
robot. Our project website presents supplemental details and videos of our
results at: https://tinyurl.com/masked-il
- Abstract(参考訳): マルチモーダルなデモは、ロボットに世界を理解するための豊富な情報を提供する。
しかし、人間の実演から感覚運動制御ポリシーを学ぶことに関して、このような多さが必ずしも良いパフォーマンスをもたらすとは限らない。
余分なデータモダリティは、意思決定に役に立たないだけでなく、環境間でのデータ分散を変えることができるモダリティを含む状態の過度な特定につながる可能性がある。
状態の過度な特定は、トレーニングデータ分布の外で一般化しない学習方針のような問題につながる。
本研究は,情報モダリティを選択的に利用して,状態過多に対処するMasked Imitation Learning (MIL)を提案する。
具体的には,特定のモダリティをブロックするために,バイナリマスクを備えたマスキングポリシネットワークを設計する。
我々は,このマスクを学習し,過度に特定されたモダリティを正確にフィルタするバイレベル最適化アルゴリズムを開発した。
実ロボットで収集したマルチモーダルデータセット上で,milがロボットアーム環境,ロボットアーム環境などのシミュレーション領域においてベースラインアルゴリズムよりも優れており,環境不変なモダリティを効果的に回復できることを実証する。
私たちのプロジェクトのWebサイトでは,結果の補足的な詳細とビデオが紹介されている。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning [36.0274770291531]
本研究では,ロボット操作タスク学習のための頑健で,データ効率が高く,汎用的なアプローチであるEquibotを提案する。
提案手法は,SIM(3)等価なニューラルネットワークアーキテクチャと拡散モデルを組み合わせたものである。
本手法は,5分間の人間による実演から学ぶことで,新しい物体やシーンに容易に一般化できることが示唆された。
論文 参考訳(メタデータ) (2024-07-01T17:09:43Z) - PoCo: Policy Composition from and for Heterogeneous Robot Learning [44.1315170137613]
現在のメソッドは通常、1つのポリシーをトレーニングするために、1つのドメインからすべてのデータを収集し、プールします。
多様なモダリティやドメインにまたがる情報を組み合わせるための,ポリシ・コンポジションと呼ばれる柔軟なアプローチを提案する。
提案手法はタスクレベルの構成をマルチタスク操作に使用することができ,分析コスト関数を用いて推論時のポリシー動作を適応させることができる。
論文 参考訳(メタデータ) (2024-02-04T14:51:49Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Curriculum-Based Imitation of Versatile Skills [15.97723808124603]
模倣による学習スキルは、ロボットの直感的な教育にとって有望な概念である。
このようなスキルを学ぶ一般的な方法は、デモが与えられた可能性の最大化によってパラメトリックモデルを学ぶことである。
しかし、人間のデモンストレーションはしばしばマルチモーダルであり、同じタスクは複数の方法で解決される。
論文 参考訳(メタデータ) (2023-04-11T12:10:41Z) - Information Maximizing Curriculum: A Curriculum-Based Approach for
Imitating Diverse Skills [14.685043874797742]
本稿では,各データポイントに重みを割り当て,表現可能なデータに特化するようにモデルに促すカリキュラムベースのアプローチを提案する。
すべてのモードをカバーし、多様な振る舞いを可能にするため、我々は、各ミックスコンポーネントが学習のためのトレーニングデータの独自のサブセットを選択する、専門家(MoE)ポリシーの混合にアプローチを拡張します。
データセットの完全なカバレッジを実現するために,新たな最大エントロピーに基づく目標を提案する。
論文 参考訳(メタデータ) (2023-03-27T16:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。