論文の概要: EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video
- arxiv url: http://arxiv.org/abs/2505.11709v1
- Date: Fri, 16 May 2025 21:34:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.796796
- Title: EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video
- Title(参考訳): EgoDex: 大規模エゴセントリックビデオからデキステラスマニピュレーションを学ぶ
- Authors: Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang,
- Abstract要約: EgoDexは、これまでで最大かつ最も多様な人体操作のデータセットである。
ビデオの撮影時間は829時間で、3Dの手と指の追跡データをペアリングして記録する。
このデータセットは、194種類のテーブルトップタスクにおいて、日常的な家庭内オブジェクトとの多様な操作行動をカバーする。
- 参考スコア(独自算出の注目度): 7.1221123957033905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning for manipulation has a well-known data scarcity problem. Unlike natural language and 2D computer vision, there is no Internet-scale corpus of data for dexterous manipulation. One appealing option is egocentric human video, a passively scalable data source. However, existing large-scale datasets such as Ego4D do not have native hand pose annotations and do not focus on object manipulation. To this end, we use Apple Vision Pro to collect EgoDex: the largest and most diverse dataset of dexterous human manipulation to date. EgoDex has 829 hours of egocentric video with paired 3D hand and finger tracking data collected at the time of recording, where multiple calibrated cameras and on-device SLAM can be used to precisely track the pose of every joint of each hand. The dataset covers a wide range of diverse manipulation behaviors with everyday household objects in 194 different tabletop tasks ranging from tying shoelaces to folding laundry. Furthermore, we train and systematically evaluate imitation learning policies for hand trajectory prediction on the dataset, introducing metrics and benchmarks for measuring progress in this increasingly important area. By releasing this large-scale dataset, we hope to push the frontier of robotics, computer vision, and foundation models.
- Abstract(参考訳): 操作のための模倣学習は、よく知られたデータ不足の問題である。
自然言語や2Dコンピュータビジョンとは異なり、デクスタラスな操作のためのインターネットスケールのデータコーパスは存在しない。
魅力的な選択肢の1つは、受動的にスケーラブルなデータソースである人間中心のビデオだ。
しかしながら、Ego4Dのような既存の大規模データセットにはネイティブハンドポーズアノテーションがなく、オブジェクト操作に重点を置いていない。
この目的のために、私たちはApple Vision Proを使って、これまでで最大かつ最も多様な人間の操作のデータセットであるEgoDexを収集しています。
EgoDexには、829時間のエゴセントリックなビデオと、記録時に収集された3Dハンドと指の追跡データがあり、複数のキャリブレーションされたカメラとデバイス上のSLAMを使って、各手の関節のポーズを正確に追跡することができる。
このデータセットは、靴紐の紐付けから折りたたみ洗濯まで、194種類のテーブルトップタスクにおいて、家庭内オブジェクトとの多様な操作行動をカバーする。
さらに、この重要領域における進捗測定のための指標とベンチマークを導入し、データセットのハンドトラジェクトリ予測のための模倣学習ポリシーを訓練し、体系的に評価する。
この大規模なデータセットをリリースすることによって、ロボット工学、コンピュータビジョン、基礎モデルのフロンティアを推し進めたいと思っています。
関連論文リスト
- EgoMimic: Scaling Imitation Learning via Egocentric Video [22.902881956495765]
EgoMimicは、人間の体表データを介して操作をスケールするフルスタックフレームワークである。
EgoMimic は,1) エルゴノミクス・プロジェクト・Aria メガネを用いたヒトの体型データをキャプチャするシステム,2) 人体データとの運動的ギャップを最小限に抑える低コストなバイマティックマニピュレータ,(4) 人体データとロボットデータとのコトレーニングを行う模倣学習アーキテクチャ,の2つによって実現している。
論文 参考訳(メタデータ) (2024-10-31T17:59:55Z) - EgoTracks: A Long-term Egocentric Visual Object Tracking Dataset [19.496721051685135]
身体追跡は多くの自我中心の視覚問題にとって重要な要素である。
EgoTracksは、長期的なエゴセントリックなビジュアルオブジェクトトラッキングのための新しいデータセットである。
本稿では,STARKトラッカーの性能向上を図り,エゴセントリックデータの性能向上を図っている。
論文 参考訳(メタデータ) (2023-01-09T09:10:35Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - Ego-Body Pose Estimation via Ego-Head Pose Estimation [22.08240141115053]
エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を担い、VR/ARに様々な応用がある。
Ego-Head Pose Estimation (EgoEgo) と呼ばれる新しい手法を提案する。
この頭と体のポーズのゆがみは、ペア化されたエゴセントリックなビデオと3D人間の動きでデータセットをトレーニングする必要をなくす。
論文 参考訳(メタデータ) (2022-12-09T02:25:20Z) - Fine-Grained Egocentric Hand-Object Segmentation: Dataset, Model, and
Applications [20.571026014771828]
11,243枚のエゴセントリックな画像からなるラベル付きデータセットを,手とオブジェクトのピクセルごとのセグメンテーションラベルで提供する。
私たちのデータセットは、ハンドオブジェクトの接触境界をラベル付けした最初のものです。
我々の堅牢なハンドオブジェクトセグメンテーションモデルとデータセットは、下流の視覚アプリケーションを強化または有効化するための基本的なツールとして機能することを示します。
論文 参考訳(メタデータ) (2022-08-07T21:43:40Z) - EgoBody: Human Body Shape, Motion and Social Interactions from
Head-Mounted Devices [76.50816193153098]
EgoBodyは複雑な3Dシーンにおけるソーシャルインタラクションのための新しい大規模データセットである。
私たちはMicrosoft HoloLens2ヘッドセットを使って、RGB、奥行き、視線、頭と手のトラッキングなど、リッチなエゴセントリックなデータストリームを記録しています。
正確な3Dグラウンドトルースを得るため、マルチKinectリグでヘッドセットを校正し、多視点RGB-Dフレームに表現力のあるSMPL-Xボディーメッシュを適合させる。
論文 参考訳(メタデータ) (2021-12-14T18:41:28Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。