論文の概要: Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos
- arxiv url: http://arxiv.org/abs/2510.21571v1
- Date: Fri, 24 Oct 2025 15:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.523063
- Title: Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos
- Title(参考訳): 実生活の人間活動映像を用いたロボットマニピュレーションのためのスケーラブルな視覚・言語・行動モデルの構築
- Authors: Qixiu Li, Yu Deng, Yaobo Liang, Lin Luo, Lei Zhou, Chengtang Yao, Lingqi Zeng, Zhiyuan Feng, Huizhi Liang, Sicheng Xu, Yizhong Zhang, Xi Chen, Hao Chen, Lily Sun, Dong Chen, Jiaolong Yang, Baining Guo,
- Abstract要約: 我々は、任意の手動ビデオのための完全自動化された総合的人間活動分析手法を開発した。
大量のエゴセントリックなビデオを処理し、100Mエピソードと26Mフレームを含む手動VLAトレーニングデータセットを作成します。
我々は手動VLAモデルアーキテクチャを設計し、このデータセット上でモデルを事前訓練する。
- 参考スコア(独自算出の注目度): 42.86535655563404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel approach for pretraining robotic manipulation Vision-Language-Action (VLA) models using a large corpus of unscripted real-life video recordings of human hand activities. Treating human hand as dexterous robot end-effector, we show that "in-the-wild" egocentric human videos without any annotations can be transformed into data formats fully aligned with existing robotic V-L-A training data in terms of task granularity and labels. This is achieved by the development of a fully-automated holistic human activity analysis approach for arbitrary human hand videos. This approach can generate atomic-level hand activity segments and their language descriptions, each accompanied with framewise 3D hand motion and camera motion. We process a large volume of egocentric videos and create a hand-VLA training dataset containing 1M episodes and 26M frames. This training data covers a wide range of objects and concepts, dexterous manipulation tasks, and environment variations in real life, vastly exceeding the coverage of existing robot data. We design a dexterous hand VLA model architecture and pretrain the model on this dataset. The model exhibits strong zero-shot capabilities on completely unseen real-world observations. Additionally, fine-tuning it on a small amount of real robot action data significantly improves task success rates and generalization to novel objects in real robotic experiments. We also demonstrate the appealing scaling behavior of the model's task performance with respect to pretraining data scale. We believe this work lays a solid foundation for scalable VLA pretraining, advancing robots toward truly generalizable embodied intelligence.
- Abstract(参考訳): 本稿では,人間の手の動きを実生活で記録する大規模コーパスを用いて,ロボット操作型ビジョン・ランゲージ・アクション(VLA)モデルを事前訓練するための新しいアプローチを提案する。
人間の手をデキスタスなロボットのエンドエフェクターとして扱うことで、アノテーションのない「理想的」人間中心ビデオは、タスクの粒度やラベルの観点から既存のロボットV-L-Aトレーニングデータと完全に整合したデータ形式に変換できることを示す。
これは、任意の手動ビデオのための完全自動化された全体的人間活動分析手法の開発によって達成される。
このアプローチは、原子レベルの手の動きセグメントとその言語記述を生成することができ、それぞれにフレームワイドな手の動きとカメラの動きが伴う。
大量のエゴセントリックなビデオを処理し、100Mエピソードと26Mフレームを含む手動VLAトレーニングデータセットを作成します。
このトレーニングデータは、さまざまなオブジェクトやコンセプト、巧妙な操作タスク、実生活における環境変動をカバーしており、既存のロボットデータのカバレッジを大きく超えている。
我々は手動VLAモデルアーキテクチャを設計し、このデータセット上でモデルを事前訓練する。
このモデルは、完全に見えない現実世界の観測に強いゼロショット能力を示す。
さらに、少量の実際のロボット動作データに基づいて微調整することで、実際のロボット実験においてタスクの成功率と新しいオブジェクトへの一般化が大幅に向上する。
また、事前学習データスケールに関して、モデルのタスクパフォーマンスの魅力的なスケーリング挙動を示す。
この研究は、スケーラブルなVLA事前訓練の基盤となり、ロボットを真に一般化可能な具体化インテリジェンスへと前進させます。
関連論文リスト
- MimicDreamer: Aligning Human and Robot Demonstrations for Scalable VLA Training [40.45924128424013]
低コストな人間によるデモンストレーションをロボットで使用可能な監視に変換するフレームワークであるMimicDreamerを提案する。
視覚的アライメントのために,高忠実度ロボットデモビデオを生成するビデオ拡散モデルH2R Alignerを提案する。
視点安定化のためにEgoStabilizerを提案する。
動作アライメントのために,人間の手の動きをロボットフレームにマッピングし,制約付き逆運動学解法を適用する。
論文 参考訳(メタデータ) (2025-09-26T11:05:10Z) - AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning [5.371855090716962]
視覚ロボットマニピュレーション(VRM)は、ロボットの状態と視覚的観察に基づいて、ロボットが自然言語の指示に従うことを可能にすることを目的としている。
既存のアプローチでは、大規模データを用いた視覚言語事前学習が採用されている。
我々は,大規模人間のアクションビデオデータセットから明示的な方法で学習することを提案する。
論文 参考訳(メタデータ) (2025-08-11T05:09:58Z) - Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.62109400603394]
本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。
提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。
本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
論文 参考訳(メタデータ) (2025-07-21T13:19:09Z) - EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos [49.820119587446655]
本稿では,エゴセントリックな人間ビデオを用いたVLA(Vision-Language-Action)モデルのトレーニングについて検討する。
人間の手首と手の動きを予測する人間のビデオに基づいて訓練されたVLAによって、私たちはInverse Kinematicsを実行し、人間のアクションをロボットアクションに変換することができる。
シミュレーションベンチマークであるEgo Humanoid Manipulation Benchmarkを提案する。
論文 参考訳(メタデータ) (2025-07-16T17:27:44Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。