論文の概要: EgoMe: Follow Me via Egocentric View in Real World
- arxiv url: http://arxiv.org/abs/2501.19061v1
- Date: Fri, 31 Jan 2025 11:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:01:49.847632
- Title: EgoMe: Follow Me via Egocentric View in Real World
- Title(参考訳): EgoMe: 現実世界でEgocentric Viewで私をフォローする
- Authors: Heqian Qiu, Zhaofeng Shi, Lanxiao Wang, Huiyu Xiong, Xiang Li, Hongliang Li,
- Abstract要約: EgoMeのデータセットには7902対のビデオが含まれており、現実世界のシナリオで日々の振る舞いが多様である。
エクソ・エゴ視線、角速度、加速度、磁力、その他のセンサーのマルチモーダルデータにより、観察と追従のプロセスの相関を確立する。
提案されたEgoMeデータセットとベンチマークが近くリリースされる。
- 参考スコア(独自算出の注目度): 12.699670048897085
- License:
- Abstract: When interacting with the real world, human often take the egocentric (first-person) view as a benchmark, naturally transferring behaviors observed from a exocentric (third-person) view to their own. This cognitive theory provides a foundation for researching how robots can more effectively imitate human behavior. However, current research either employs multiple cameras with different views focusing on the same individual's behavior simultaneously or encounters unpair ego-exo view scenarios, there is no effort to fully exploit human cognitive behavior in the real world. To fill this gap, in this paper, we introduce a novel large-scale egocentric dataset, called EgoMe, which towards following the process of human imitation learning via egocentric view in the real world. Our dataset includes 7902 pairs of videos (15804 videos) for diverse daily behaviors in real-world scenarios. For a pair of videos, one video captures a exocentric view of the imitator observing the demonstrator's actions, while the other captures a egocentric view of the imitator subsequently following those actions. Notably, our dataset also contain exo-ego eye gaze, angular velocity, acceleration, magnetic strength and other sensor multi-modal data for assisting in establishing correlations between observing and following process. In addition, we also propose eight challenging benchmark tasks for fully leveraging this data resource and promoting the research of robot imitation learning ability. Extensive statistical analysis demonstrates significant advantages compared to existing datasets. The proposed EgoMe dataset and benchmark will be released soon.
- Abstract(参考訳): 現実世界と対話する場合、人間はしばしば自我中心(第一人)の視点をベンチマークとして捉え、自我中心(第三人)の視点から自然に観察された振る舞いを自分自身に移す。
この認知理論は、ロボットが人間の行動をより効果的に模倣する方法を研究する基礎となる。
しかし、現在の研究では、同一人物の行動に焦点を絞った異なる視点の複数のカメラを採用するか、あるいは未熟なエゴ・エクソビューのシナリオに遭遇するかのいずれかであり、現実世界における人間の認知行動を完全に活用する努力は存在しない。
このギャップを埋めるために,本稿では,実世界における人間模倣学習のプロセスに追従する,EgoMeと呼ばれる新しい大規模自我中心型データセットを提案する。
私たちのデータセットには7902対の動画(15804ビデオ)が含まれています。
一対のビデオでは、あるビデオは、デモストレーターのアクションを観察する模倣者のエキゾセントリックなビューをキャプチャし、もう1つはその後、模倣者のエゴセントリックなビューをキャプチャする。
特に,我々のデータセットには,観察過程と追従過程の相関関係の確立を支援するために,眼球外視,角速度,加速度,磁力,その他のセンサマルチモーダルデータが含まれている。
さらに,このデータ資源をフル活用し,ロボット模倣学習能力の研究を促進するために,8つの挑戦的ベンチマークタスクを提案する。
大規模な統計分析は、既存のデータセットと比較して大きな利点を示している。
提案されているEgoMeデータセットとベンチマークが近くリリースされる。
関連論文リスト
- EgoMimic: Scaling Imitation Learning via Egocentric Video [22.902881956495765]
EgoMimicは、人間の体表データを介して操作をスケールするフルスタックフレームワークである。
EgoMimic は,1) エルゴノミクス・プロジェクト・Aria メガネを用いたヒトの体型データをキャプチャするシステム,2) 人体データとの運動的ギャップを最小限に抑える低コストなバイマティックマニピュレータ,(4) 人体データとロボットデータとのコトレーニングを行う模倣学習アーキテクチャ,の2つによって実現している。
論文 参考訳(メタデータ) (2024-10-31T17:59:55Z) - Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。
エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。
視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文 参考訳(メタデータ) (2024-08-07T06:10:45Z) - EgoPet: Egomotion and Interaction Data from an Animal's Perspective [82.7192364237065]
本稿では,同時行動とマルチエージェントインタラクションの多様な例を含む,ペットの情緒的イメージのデータセットを紹介する。
EgoPetは、既存の人間や車両のエゴセントリックなデータセットとは根本的に異なる視点を提供する。
動物行動を把握する2つのドメイン内ベンチマークタスクと、ロボット四足歩行のための事前学習リソースとしてEgoPetの有用性を評価するための第3のベンチマークを定義する。
論文 参考訳(メタデータ) (2024-04-15T17:59:47Z) - EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World [44.34800426136217]
EgoExoLearnは、以下のプロセスで人間の実演をエミュレートするデータセットである。
EgoExoLearnには120時間にわたるエゴセントリックでデモ的なビデオデータが含まれている。
クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを提示する。
論文 参考訳(メタデータ) (2024-03-24T15:00:44Z) - EgoGen: An Egocentric Synthetic Data Generator [53.32942235801499]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。
EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。
我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-16T18:55:22Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - Ego-Body Pose Estimation via Ego-Head Pose Estimation [22.08240141115053]
エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を担い、VR/ARに様々な応用がある。
Ego-Head Pose Estimation (EgoEgo) と呼ばれる新しい手法を提案する。
この頭と体のポーズのゆがみは、ペア化されたエゴセントリックなビデオと3D人間の動きでデータセットをトレーニングする必要をなくす。
論文 参考訳(メタデータ) (2022-12-09T02:25:20Z) - MECCANO: A Multimodal Egocentric Dataset for Humans Behavior
Understanding in the Industrial-like Domain [23.598727613908853]
本稿では,産業的な環境下での人間の行動理解を目的とした,エゴセントリックなビデオのデータセットMECCANOを提案する。
マルチモダリティの特徴は、視線信号、深度マップ、RGBビデオとカスタムヘッドセットが同時に取得される点である。
データセットは、人間の行動理解の文脈における基本的なタスクに対して、一人称視点から明示的にラベル付けされている。
論文 参考訳(メタデータ) (2022-09-19T00:52:42Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。