論文の概要: METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model
- arxiv url: http://arxiv.org/abs/2511.17366v1
- Date: Fri, 21 Nov 2025 16:32:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.109581
- Title: METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model
- Title(参考訳): METIS:統合デクスタラスビジョンランゲージ・アクションモデルのためのマルチソースエゴセントリックトレーニング
- Authors: Yankai Fu, Ning Chen, Junkai Zhao, Shaozhe Shan, Guocai Yao, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang,
- Abstract要約: 大きなボトルネックは、デクスタラススキルのための大規模でアクションアノテートされたデータの不足にある。
我々は,エゴセントリックなデータセット上で事前学習したデクスタラス操作のための視覚言語アクションモデルMETISを提案する。
提案手法は,6つの実世界のタスクにおける平均成功率を達成し,異常な操作能力を示す。
- 参考スコア(独自算出の注目度): 36.82365894983052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building a generalist robot that can perceive, reason, and act across diverse tasks remains an open challenge, especially for dexterous manipulation. A major bottleneck lies in the scarcity of large-scale, action-annotated data for dexterous skills, as teleoperation is difficult and costly. Human data, with its vast scale and diverse manipulation behaviors, provides rich priors for learning robotic actions. While prior works have explored leveraging human demonstrations, they are often constrained by limited scenarios and a large visual gap between human and robots. To eliminate these limitations, we propose METIS, a vision-language-action (VLA) model for dexterous manipulation pretrained on multi-source egocentric datasets. We first construct EgoAtlas, which integrates large-scale human and robotic data from multiple sources, all unified under a consistent action space. We further extract motion-aware dynamics, a compact and discretized motion representation, which provides efficient and expressive supervision for VLA training. Built upon them, METIS integrates reasoning and acting into a unified framework, enabling effective deployment to downstream dexterous manipulation tasks. Our method demonstrates exceptional dexterous manipulation capabilities, achieving highest average success rate in six real-world tasks. Experimental results also highlight the superior generalization and robustness to out-of-distribution scenarios. These findings emphasize METIS as a promising step toward a generalist model for dexterous manipulation.
- Abstract(参考訳): さまざまなタスクにまたがる知覚、理性、行動を可能にする汎用ロボットを構築することは、特に巧妙な操作において、オープンな課題である。
大きなボトルネックは、遠隔操作が困難でコストがかかるため、デクスタラススキルのための大規模でアクションアノテートされたデータの不足にある。
人間のデータは、その大規模で多様な操作行動によって、ロボット行動を学ぶための豊富な事前情報を提供する。
以前の研究は人間のデモンストレーションの活用を検討してきたが、制限されたシナリオと人間とロボットの間の大きな視覚的ギャップによって制約されることが多い。
これらの制限を解消するため,マルチソース・エゴセントリックなデータセット上で事前訓練されたデクスタス操作のための視覚言語アクション(VLA)モデルであるMETISを提案する。
まずEgoAtlasを構築し、複数のソースから大規模な人間とロボットのデータを統合する。
さらに、VLAトレーニングのための効率的かつ表現力のある監視を提供する、コンパクトで離散化された動き表現である動き認識ダイナミクスを抽出する。
その上に構築されたMETISは、推論と動作を統一されたフレームワークに統合し、下流の巧妙な操作タスクへの効果的なデプロイメントを可能にする。
提案手法は,6つの実世界のタスクにおける平均成功率を達成し,異常な操作能力を示す。
実験結果は、アウト・オブ・ディストリビューションシナリオに対する優れた一般化とロバスト性も強調している。
これらの知見は, METIS をデキスタス操作のためのジェネラリストモデルに向けた有望なステップとして強調した。
関連論文リスト
- End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy: VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collection [10.217810309422232]
マクロモーションとマイクロモーションの制御を分割するフレームワークを提案する。
人間のオペレーターが直感的なVR遠隔操作を通してロボットの腕のポーズをガイドします。
自律的なDexGrasp-VLAポリシは、リアルタイム触覚と視覚フィードバックを使用して、きめ細かい手制御を処理する。
論文 参考訳(メタデータ) (2025-10-31T16:12:02Z) - Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos [42.86535655563404]
我々は、任意の手動ビデオのための完全自動化された総合的人間活動分析手法を開発した。
大量のエゴセントリックなビデオを処理し、100Mエピソードと26Mフレームを含む手動VLAトレーニングデータセットを作成します。
我々は手動VLAモデルアーキテクチャを設計し、このデータセット上でモデルを事前訓練する。
論文 参考訳(メタデータ) (2025-10-24T15:39:31Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning [5.371855090716962]
視覚ロボットマニピュレーション(VRM)は、ロボットの状態と視覚的観察に基づいて、ロボットが自然言語の指示に従うことを可能にすることを目的としている。
既存のアプローチでは、大規模データを用いた視覚言語事前学習が採用されている。
我々は,大規模人間のアクションビデオデータセットから明示的な方法で学習することを提案する。
論文 参考訳(メタデータ) (2025-08-11T05:09:58Z) - Is Diversity All You Need for Scalable Robotic Manipulation? [50.747150672933316]
ロボット学習におけるデータ多様性の役割について,従来の「より多様な方がよい」という直観に固執する3つの重要な次元(タスク),実施形態(ロボットの使用方法),専門家(専門家)を用いて検討する。
タスクの多様性は、タスクごとのデモンストレーション量よりも重要であり、多様な事前学習タスクから新しい下流シナリオへの移行に有効であることを示す。
本稿では,速度のあいまいさを緩和する分散デバイアス法を提案する。GO-1-Proは,2.5倍の事前学習データを用いて,15%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-08T17:52:44Z) - MAPLE: Encoding Dexterous Robotic Manipulation Priors Learned From Egocentric Videos [43.836197294180316]
そこで本研究では,より効率的なポリシー学習を実現するために,よりリッチな操作を生かした創発的ロボット操作手法であるMAPLEを提案する。
具体的には、手動接触時の手動接触点と詳細な手動ポーズを予測し、学習した特徴を用いて下流操作タスクのポリシーを訓練する。
論文 参考訳(メタデータ) (2025-04-08T14:25:25Z) - RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete [27.814422322892522]
MLLM(Multimodal Large Language Models)は、様々なマルチモーダルコンテキストにまたがる顕著な機能を示す。
計画能力、順応知覚、軌道予測の3つの重要なロボット脳能力が欠如している。
タスク計画やオブジェクトの空き時間,エンドエフェクタの軌道といった多次元情報をラベル付けしたデータセットであるShareRobotを紹介する。
ロボットと一般的なマルチモーダルデータを組み合わせたMLLMベースのモデルであるRoboBrainを,マルチステージトレーニング戦略を用いて開発する。
論文 参考訳(メタデータ) (2025-02-28T17:30:39Z) - Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids [56.892520712892804]
本稿では,ヒューマノイドロボットを訓練して3つの巧妙な操作を行う,実用的なシミュレート・トゥ・リアルなRLレシピを提案する。
未確認のオブジェクトやロバストで適応的な政策行動に対して高い成功率を示す。
論文 参考訳(メタデータ) (2025-02-27T18:59:52Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。