論文の概要: OpenEgo: A Large-Scale Multimodal Egocentric Dataset for Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2509.05513v1
- Date: Fri, 05 Sep 2025 21:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.559189
- Title: OpenEgo: A Large-Scale Multimodal Egocentric Dataset for Dexterous Manipulation
- Title(参考訳): OpenEgo: Dexterous Manipulationのための大規模マルチモーダルエゴセントリックデータセット
- Authors: Ahad Jawaid, Yu Xiang,
- Abstract要約: マルチモーダルなエゴセントリックな操作データセットであるOpenEgoを紹介した。
OpenEgoは6つの公開データセットで合計1107時間、600以上の環境で290の操作タスクをカバーしている。
- 参考スコア(独自算出の注目度): 2.8241645653117042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric human videos provide scalable demonstrations for imitation learning, but existing corpora often lack either fine-grained, temporally localized action descriptions or dexterous hand annotations. We introduce OpenEgo, a multimodal egocentric manipulation dataset with standardized hand-pose annotations and intention-aligned action primitives. OpenEgo totals 1107 hours across six public datasets, covering 290 manipulation tasks in 600+ environments. We unify hand-pose layouts and provide descriptive, timestamped action primitives. To validate its utility, we train language-conditioned imitation-learning policies to predict dexterous hand trajectories. OpenEgo is designed to lower the barrier to learning dexterous manipulation from egocentric video and to support reproducible research in vision-language-action learning. All resources and instructions will be released at www.openegocentric.com.
- Abstract(参考訳): エゴセントリックな人間のビデオは模倣学習のためのスケーラブルなデモを提供するが、既存のコーパスは細粒度で時間的に局所化されたアクション記述やデクスタスハンドアノテーションを欠いていることが多い。
マルチモーダルなエゴセントリックな操作データセットであるOpenEgoを紹介した。
OpenEgoは6つの公開データセットで合計1107時間、600以上の環境で290の操作タスクをカバーしている。
手動のレイアウトを統一し、記述的でタイムスタンプのあるアクションプリミティブを提供します。
その有用性を検証するために,言語条件の模倣学習ポリシーを訓練し,手指の軌跡を推定する。
OpenEgoは、エゴ中心のビデオから外見的な操作を学ぶための障壁を低くし、視覚-言語-行動学習における再現可能な研究を支援するように設計されている。
すべてのリソースと命令はwww.openegocentric.comで公開される。
関連論文リスト
- EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video [7.1221123957033905]
EgoDexは、これまでで最大かつ最も多様な人体操作のデータセットである。
ビデオの撮影時間は829時間で、3Dの手と指の追跡データをペアリングして記録する。
このデータセットは、194種類のテーブルトップタスクにおいて、日常的な家庭内オブジェクトとの多様な操作行動をカバーする。
論文 参考訳(メタデータ) (2025-05-16T21:34:47Z) - EgoMimic: Scaling Imitation Learning via Egocentric Video [22.902881956495765]
EgoMimicは、人間の体表データを介して操作をスケールするフルスタックフレームワークである。
EgoMimic は,1) エルゴノミクス・プロジェクト・Aria メガネを用いたヒトの体型データをキャプチャするシステム,2) 人体データとの運動的ギャップを最小限に抑える低コストなバイマティックマニピュレータ,(4) 人体データとロボットデータとのコトレーニングを行う模倣学習アーキテクチャ,の2つによって実現している。
論文 参考訳(メタデータ) (2024-10-31T17:59:55Z) - Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。
エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。
視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文 参考訳(メタデータ) (2024-08-07T06:10:45Z) - EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World [44.34800426136217]
EgoExoLearnは、以下のプロセスで人間の実演をエミュレートするデータセットである。
EgoExoLearnには120時間にわたるエゴセントリックでデモ的なビデオデータが含まれている。
クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを提示する。
論文 参考訳(メタデータ) (2024-03-24T15:00:44Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Learning Dexterous Grasping with Object-Centric Visual Affordances [86.49357517864937]
控えめなロボットハンドは、機敏さと人間のような形態をアピールしています。
本稿では,厳密な把握を学習するためのアプローチを提案する。
私たちのキーとなるアイデアは、オブジェクト中心の視覚的余裕モデルを深い強化学習ループに埋め込むことです。
論文 参考訳(メタデータ) (2020-09-03T04:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。