論文の概要: EgoM2P: Egocentric Multimodal Multitask Pretraining
- arxiv url: http://arxiv.org/abs/2506.07886v1
- Date: Mon, 09 Jun 2025 15:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.034396
- Title: EgoM2P: Egocentric Multimodal Multitask Pretraining
- Title(参考訳): EgoM2P:Egocentric Multimodal Multitask Pretraining
- Authors: Gen Li, Yutong Chen, Yiqian Wu, Kaifeng Zhao, Marc Pollefeys, Siyu Tang,
- Abstract要約: 大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築は、ユニークな課題を示している。
EgoM2Pは、時間的に認識されたマルチモーダルトークンから学習し、エゴセントリックな4D理解のための大規模な汎用モデルをトレーニングするマスク付きモデリングフレームワークである。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
- 参考スコア(独自算出の注目度): 55.259234688003545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding multimodal signals in egocentric vision, such as RGB video, depth, camera poses, and gaze, is essential for applications in augmented reality, robotics, and human-computer interaction. These capabilities enable systems to better interpret the camera wearer's actions, intentions, and surrounding environment. However, building large-scale egocentric multimodal and multitask models presents unique challenges. Egocentric data are inherently heterogeneous, with large variations in modality coverage across devices and settings. Generating pseudo-labels for missing modalities, such as gaze or head-mounted camera trajectories, is often infeasible, making standard supervised learning approaches difficult to scale. Furthermore, dynamic camera motion and the complex temporal and spatial structure of first-person video pose additional challenges for the direct application of existing multimodal foundation models. To address these challenges, we introduce a set of efficient temporal tokenizers and propose EgoM2P, a masked modeling framework that learns from temporally aware multimodal tokens to train a large, general-purpose model for egocentric 4D understanding. This unified design supports multitasking across diverse egocentric perception and synthesis tasks, including gaze prediction, egocentric camera tracking, and monocular depth estimation from egocentric video. EgoM2P also serves as a generative model for conditional egocentric video synthesis. Across these tasks, EgoM2P matches or outperforms specialist models while being an order of magnitude faster. We will fully open-source EgoM2P to support the community and advance egocentric vision research. Project page: https://egom2p.github.io/
- Abstract(参考訳): RGBビデオ、ディープ、カメラポーズ、視線など、自我中心のビジョンにおけるマルチモーダル信号を理解することは、拡張現実、ロボティクス、人間とコンピュータのインタラクションにおける応用に不可欠である。
これらの能力により、システムはカメラ装着者の行動、意図、周囲の環境をよりよく解釈することができる。
しかし、大規模なエゴセントリックなマルチモーダルモデルとマルチタスクモデルの構築には固有の課題がある。
エゴセントリックなデータは本質的に異質であり、デバイスや設定間でのモダリティのカバー範囲が大きく変化する。
視線やヘッドマウントカメラトラジェクトリのようなモダリティの欠如に対して擬似ラベルを生成することは、しばしば実現不可能であり、標準的な教師付き学習アプローチのスケールが困難である。
さらに、動的なカメラの動きと、一対一のビデオの複雑な時間的・空間的構造は、既存のマルチモーダル基礎モデルの直接適用にさらなる課題をもたらす。
これらの課題に対処するために、効率的な時間的トークン化器のセットを導入し、エゴセントリックな4D理解のための大規模汎用モデルをトレーニングするために、時間的に認識されたマルチモーダルトークンから学習するマスク付きモデリングフレームワークであるEgoM2Pを提案する。
この統合されたデザインは、視線予測、自我中心のカメラトラッキング、自我中心のビデオからの単眼深度推定など、多様な自我中心の知覚と合成タスクにわたるマルチタスクをサポートする。
EgoM2Pは条件付きエゴ中心ビデオ合成の生成モデルとしても機能する。
これらのタスク全体で、EgoM2Pは専門的なモデルに匹敵し、桁違いに高速である。
私たちはEgoM2Pを完全にオープンソース化し、コミュニティを支援し、エゴセントリックなビジョン研究を前進させます。
プロジェクトページ: https://egom2p.github.io/
関連論文リスト
- GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control [122.65089441381741]
一般化可能なエゴビジョン・マルチモーダル世界モデルであるGEMについて述べる。
参照フレーム、スパース機能、人間のポーズ、エゴ軌道を使って将来のフレームを予測する。
私たちのデータセットは、自律運転、エゴセントリックな人間活動、ドローン飛行など、複数の領域にまたがる4000時間以上のマルチモーダルデータで構成されています。
論文 参考訳(メタデータ) (2024-12-15T14:21:19Z) - Self-Supervised Monocular 4D Scene Reconstruction for Egocentric Videos [25.41337525728398]
EgoMono4Dは、Egocentric Monocular 4D再構成に必要な複数の変数を統一する新しいモデルである。
全てのベースラインと比較して高密度の点雲列再構成において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-11-14T02:57:11Z) - MM-Ego: Towards Building Egocentric Multimodal LLMs for Video QA [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
Ego4Dでは,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを自動生成する。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - EgoLM: Multi-Modal Language Model of Egocentric Motions [42.36945117610459]
マルチモーダル入力からエゴセントリックな動きを追跡し,理解する多目的フレームワークであるEgoLMを提案する。
我々の重要な洞察は、大きな言語モデルを用いて、自我中心運動と自然言語の連立分布をモデル化することである。
論文 参考訳(メタデータ) (2024-09-26T17:59:31Z) - EgoGen: An Egocentric Synthetic Data Generator [53.32942235801499]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。
EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。
我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-16T18:55:22Z) - Ego-Body Pose Estimation via Ego-Head Pose Estimation [22.08240141115053]
エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を担い、VR/ARに様々な応用がある。
Ego-Head Pose Estimation (EgoEgo) と呼ばれる新しい手法を提案する。
この頭と体のポーズのゆがみは、ペア化されたエゴセントリックなビデオと3D人間の動きでデータセットをトレーニングする必要をなくす。
論文 参考訳(メタデータ) (2022-12-09T02:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。