論文の概要: EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World
- arxiv url: http://arxiv.org/abs/2403.16182v2
- Date: Wed, 5 Jun 2024 09:44:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 00:40:47.862582
- Title: EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World
- Title(参考訳): EgoExoLearn: 実世界の手続き活動の非同期的エゴとエクソ中心の視点をブリッジするデータセット
- Authors: Yifei Huang, Guo Chen, Jilan Xu, Mingfang Zhang, Lijin Yang, Baoqi Pei, Hongjie Zhang, Lu Dong, Yali Wang, Limin Wang, Yu Qiao,
- Abstract要約: EgoExoLearnは、以下のプロセスで人間の実演をエミュレートするデータセットである。
EgoExoLearnには120時間にわたるエゴセントリックでデモ的なビデオデータが含まれている。
クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを提示する。
- 参考スコア(独自算出の注目度): 44.34800426136217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Being able to map the activities of others into one's own point of view is one fundamental human skill even from a very early age. Taking a step toward understanding this human ability, we introduce EgoExoLearn, a large-scale dataset that emulates the human demonstration following process, in which individuals record egocentric videos as they execute tasks guided by demonstration videos. Focusing on the potential applications in daily assistance and professional support, EgoExoLearn contains egocentric and demonstration video data spanning 120 hours captured in daily life scenarios and specialized laboratories. Along with the videos we record high-quality gaze data and provide detailed multimodal annotations, formulating a playground for modeling the human ability to bridge asynchronous procedural actions from different viewpoints. To this end, we present benchmarks such as cross-view association, cross-view action planning, and cross-view referenced skill assessment, along with detailed analysis. We expect EgoExoLearn can serve as an important resource for bridging the actions across views, thus paving the way for creating AI agents capable of seamlessly learning by observing humans in the real world. Code and data can be found at: https://github.com/OpenGVLab/EgoExoLearn
- Abstract(参考訳): 他人の活動を自分の視点にマッピングできることは、非常に若い頃からの基本的な人間のスキルである。
EgoExoLearnは、デモビデオによってガイドされたタスクを実行する際に、個人がエゴセントリックなビデオを記録するプロセスに続く人間のデモをエミュレートする大規模なデータセットである。
EgoExoLearnは、日常生活のシナリオや専門的な研究室で捉えた120時間にわたる、エゴセントリックでデモ的なビデオデータを含んでいる。
ビデオとともに、高品質な視線データを記録し、より詳細なマルチモーダルアノテーションを提供し、異なる視点から非同期手続きアクションをブリッジする人間の能力をモデル化するための遊び場を定式化します。
この目的のために、クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを詳細な分析とともに提示する。
EgoExoLearnは、ビューをまたいでアクションをブリッジするための重要なリソースとして機能し、現実世界で人間を観察してシームレスに学習できるAIエージェントを作るための道を開くことができると期待している。
コードとデータは、https://github.com/OpenGVLab/EgoExoLearnで参照できる。
関連論文リスト
- EgoMe: Follow Me via Egocentric View in Real World [12.699670048897085]
EgoMeのデータセットには7902対のビデオが含まれており、現実世界のシナリオで日々の振る舞いが多様である。
エクソ・エゴ視線、角速度、加速度、磁力、その他のセンサーのマルチモーダルデータにより、観察と追従のプロセスの相関を確立する。
提案されたEgoMeデータセットとベンチマークが近くリリースされる。
論文 参考訳(メタデータ) (2025-01-31T11:48:22Z) - From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities [7.057604866667723]
本稿では,LVLMにおけるエゴ拡張エゴ表現を学習するためのオンラインego2exo蒸留手法を提案する。
このアプローチは有効であるが、現実のADLシナリオの収集には実用的ではないペア付きエゴエクソトレーニングデータが必要である。
エゴミミック(EgoMimic)は、外心ビデオから模倣エゴビューを生成するスケルトン誘導方式である。
論文 参考訳(メタデータ) (2025-01-10T05:01:58Z) - EgoMimic: Scaling Imitation Learning via Egocentric Video [22.902881956495765]
EgoMimicは、人間の体表データを介して操作をスケールするフルスタックフレームワークである。
EgoMimic は,1) エルゴノミクス・プロジェクト・Aria メガネを用いたヒトの体型データをキャプチャするシステム,2) 人体データとの運動的ギャップを最小限に抑える低コストなバイマティックマニピュレータ,(4) 人体データとロボットデータとのコトレーニングを行う模倣学習アーキテクチャ,の2つによって実現している。
論文 参考訳(メタデータ) (2024-10-31T17:59:55Z) - Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。
エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。
視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文 参考訳(メタデータ) (2024-08-07T06:10:45Z) - Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives [194.06650316685798]
Ego-Exo4Dは、熟練した人間の活動を同時に捉えたエゴセントリックでエゴセントリックなビデオを中心にしている。
世界の13都市から740人の参加者が123の異なる自然環境下でこれらの活動を行った。
ビデオにはマルチチャンネルオーディオ、視線、3Dポイントクラウド、カメラポーズ、IMU、複数対の言語記述が添付されている。
論文 参考訳(メタデータ) (2023-11-30T05:21:07Z) - HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI
Assistants in the Real World [48.90399899928823]
この研究は、物理的な世界でのタスクを実行することで人間を対話的に導くインテリジェントエージェントを開発するための、より広範な研究努力の一環である。
大規模なエゴセントリックなヒューマンインタラクションデータセットであるHoloAssistを紹介する。
人間のアシスタントがミスを正し、タスク完了手順に介入し、環境に指示を下す方法について、重要な知見を提示する。
論文 参考訳(メタデータ) (2023-09-29T07:17:43Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。