論文の概要: Developing Vision-Language-Action Model from Egocentric Videos
- arxiv url: http://arxiv.org/abs/2509.21986v1
- Date: Fri, 26 Sep 2025 07:09:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.261512
- Title: Developing Vision-Language-Action Model from Egocentric Videos
- Title(参考訳): エゴセントリックビデオによる視覚・言語・行動モデルの構築
- Authors: Tomoya Yoshida, Shuhei Kurita, Taichi Nishimura, Shinsuke Mori,
- Abstract要約: エゴセントリックなビデオは、人間がオブジェクトやツールを操作する方法を捉え、オブジェクトの操作を学ぶための多様な動きの手がかりを提供する。
このようなビデオを利用してロボットのポリシーを訓練する以前の研究は、手動の詳細な記録のような補助的なアノテーションに依存していた。
本研究では,エゴセントリックビデオから6DoFオブジェクト操作トラジェクトリを抽出するフレームワークであるEgoScalerを活用することで,この問題に対処する。
- 参考スコア(独自算出の注目度): 14.1517430035289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric videos capture how humans manipulate objects and tools, providing diverse motion cues for learning object manipulation. Unlike the costly, expert-driven manual teleoperation commonly used in training Vision-Language-Action models (VLAs), egocentric videos offer a scalable alternative. However, prior studies that leverage such videos for training robot policies typically rely on auxiliary annotations, such as detailed hand-pose recordings. Consequently, it remains unclear whether VLAs can be trained directly from raw egocentric videos. In this work, we address this challenge by leveraging EgoScaler, a framework that extracts 6DoF object manipulation trajectories from egocentric videos without requiring auxiliary recordings. We apply EgoScaler to four large-scale egocentric video datasets and automatically refine noisy or incomplete trajectories, thereby constructing a new large-scale dataset for VLA pre-training. Our experiments with a state-of-the-art $\pi_0$ architecture in both simulated and real-robot environments yield three key findings: (i) pre-training on our dataset improves task success rates by over 20\% compared to training from scratch, (ii) the performance is competitive with that achieved using real-robot datasets, and (iii) combining our dataset with real-robot data yields further improvements. These results demonstrate that egocentric videos constitute a promising and scalable resource for advancing VLA research.
- Abstract(参考訳): エゴセントリックなビデオは、人間がオブジェクトやツールを操作する方法を捉え、オブジェクトの操作を学ぶための多様な動きの手がかりを提供する。
VLA(Vision-Language-Action Model)のトレーニングで一般的に使用される、高価な専門家主導の手動遠隔操作とは異なり、エゴセントリックビデオはスケーラブルな代替手段を提供する。
しかしながら、ロボットポリシーのトレーニングにこのようなビデオを利用する以前の研究は、手動の詳細な記録のような補助的なアノテーションに依存していた。
したがって、VLAが生のエゴセントリックビデオから直接訓練できるかどうかは不明だ。
本研究では,エゴセントリックなビデオから6DoFオブジェクト操作トラジェクトリを抽出するフレームワークであるEgoScalerを活用することで,この課題に対処する。
EgoScalerを4つの大規模なエゴセントリックなビデオデータセットに適用し、ノイズや不完全な軌道を自動的に洗練し、VLA事前学習のための新しい大規模データセットを構築する。
シミュレーションおよび実ロボット環境での最先端の$\pi_0$アーキテクチャによる実験は、3つの重要な発見をもたらす。
(i)データセットの事前トレーニングは、スクラッチからのトレーニングに比べてタスク成功率を20倍以上改善します。
(ii)実ロボットデータセットを用いて達成した性能と競合し、
3) データセットと実ロボットデータを組み合わせることで、さらなる改善が得られます。
これらの結果は、エゴセントリックなビデオがVLA研究を進めるための有望でスケーラブルなリソースであることを示している。
関連論文リスト
- Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos [66.62109400603394]
本稿では,大規模な人体ビデオで訓練された視覚・言語・行動モデルであるBeing-H0を紹介する。
提案手法は,人間のビデオからの大規模VLA事前学習,3次元推論のための物理空間アライメント,ロボット作業のためのポストトレーニング適応を組み合わせた,新しいトレーニングパラダイムである物理インストラクションチューニングに重点を置いている。
本研究では,手の動き生成と指示の結果としてのBeat-H0の卓越性を実証的に示すとともに,モデルやデータサイズにもよく対応している。
論文 参考訳(メタデータ) (2025-07-21T13:19:09Z) - TASTE-Rob: Advancing Video Generation of Task-Oriented Hand-Object Interaction for Generalizable Robotic Manipulation [18.083105886634115]
TASTE-Robは、エゴ中心のハンドオブジェクトインタラクションビデオ100,856のデータセットである。
それぞれのビデオは、言語指示と慎重に一致し、一貫したカメラ視点から記録される。
リアリズムを高めるために,我々は3段階のポーズ・リファインメント・パイプラインを導入する。
論文 参考訳(メタデータ) (2025-03-14T14:09:31Z) - Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding [69.96199605596138]
現在のMLLMは、主に第三者(外見中心)のビジョンに焦点を当てており、一対一(自我中心)の動画のユニークな側面を見下ろしている。
本研究では,エゴ中心領域とエゴ中心領域のマッピングを学習し,エゴ中心領域の理解を高めることを提案する。
Ego-ExoClipは1.1M同期のEgo-Exoクリップテキストペアからなる事前学習データセットである。
論文 参考訳(メタデータ) (2025-03-12T08:10:33Z) - Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning [71.02843679746563]
エゴセントリックなビデオ理解では、手や物体の動きと相互作用は自然によって重要な役割を果たす。
本研究では,細粒度ハンドオブジェクトのモデリングをビデオ表現学習プロセスに統合することを目的とする。
EgoVideoは,手の動き情報を微粒化するための,新しい軽量モーションアダプタを備えたモデルである。
論文 参考訳(メタデータ) (2025-03-02T18:49:48Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - EgoMimic: Scaling Imitation Learning via Egocentric Video [22.902881956495765]
EgoMimicは、人間の体表データを介して操作をスケールするフルスタックフレームワークである。
EgoMimic は,1) エルゴノミクス・プロジェクト・Aria メガネを用いたヒトの体型データをキャプチャするシステム,2) 人体データとの運動的ギャップを最小限に抑える低コストなバイマティックマニピュレータ,(4) 人体データとロボットデータとのコトレーニングを行う模倣学習アーキテクチャ,の2つによって実現している。
論文 参考訳(メタデータ) (2024-10-31T17:59:55Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z) - Creating a Large-scale Synthetic Dataset for Human Activity Recognition [0.8250374560598496]
ビデオの合成データセットを生成するために3Dレンダリングツールを使用し、これらのビデオで訓練された分類器が実際のビデオに一般化可能であることを示す。
ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを確認した。
論文 参考訳(メタデータ) (2020-07-21T22:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。