論文の概要: Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding
- arxiv url: http://arxiv.org/abs/2503.09143v1
- Date: Wed, 12 Mar 2025 08:10:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:39:20.868314
- Title: Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding
- Title(参考訳): Exo2Ego:エゴセントリックビデオ理解のためのエゴセントリック知識ガイドMLLM
- Authors: Haoyu Zhang, Qiaohui Chu, Meng Liu, Yunxiao Wang, Bin Wen, Fan Yang, Tingting Gao, Di Zhang, Yaowei Wang, Liqiang Nie,
- Abstract要約: 現在のMLLMは、主に第三者(外見中心)のビジョンに焦点を当てており、一対一(自我中心)の動画のユニークな側面を見下ろしている。
本研究では,エゴ中心領域とエゴ中心領域のマッピングを学習し,エゴ中心領域の理解を高めることを提案する。
Ego-ExoClipは1.1M同期のEgo-Exoクリップテキストペアからなる事前学習データセットである。
- 参考スコア(独自算出の注目度): 69.96199605596138
- License:
- Abstract: AI personal assistants, deployed through robots or wearables, require embodied understanding to collaborate effectively with humans. Current Multimodal Large Language Models (MLLMs) primarily focus on third-person (exocentric) vision, overlooking the unique aspects of first-person (egocentric) videos. Additionally, high acquisition costs limit data size, impairing MLLM performance. To address these challenges, we propose learning the mapping between exocentric and egocentric domains, leveraging the extensive exocentric knowledge within existing MLLMs to enhance egocentric video understanding. To this end, we introduce Ego-ExoClip, a pre-training dataset comprising 1.1M synchronized ego-exo clip-text pairs derived from Ego-Exo4D. Our approach features a progressive training pipeline with three stages: Teacher Self-Preparation, Teacher-Student Guidance, and Student Self-Practice. Additionally, we propose an instruction-tuning data EgoIT from multiple sources to strengthen the model's instruction-following capabilities, along with the EgoBench benchmark comprising eight different tasks for thorough evaluation. Extensive experiments across diverse egocentric tasks reveal that existing MLLMs perform inadequately in egocentric video understanding, while our model significantly outperforms these leading models.
- Abstract(参考訳): ロボットやウェアラブルを通じて展開されるAIパーソナルアシスタントは、人間と効果的に協力するために具体的理解を必要とする。
現在のMLLM(Multimodal Large Language Models)は、主に、ファーストパーソン(エゴセントリック)ビデオのユニークな側面を見下ろす、サードパーソン(Exocentric)なビジョンに焦点を当てている。
さらに、高い取得コストはデータサイズを制限し、MLLMのパフォーマンスを損なう。
これらの課題に対処するために,既存のMLLMにおけるエゴセントリックな知識を活用して,エゴセントリックなビデオ理解を強化することで,エゴセントリックなドメインとエゴセントリックなドメイン間のマッピングの学習を提案する。
この目的のために、Ego-Exo4Dから派生した1.1M同期のEgo-Exoクリップテキストペアからなる事前学習データセットであるEgo-ExoClipを導入する。
提案手法は,教師の自己準備,教師の指導,学生の自己実践の3段階からなる漸進的な訓練パイプラインを特徴とする。
さらに,複数の情報源から得られた命令追跡データEgoITと,詳細な評価のための8つのタスクからなるEgoBenchベンチマークを提案する。
多様なエゴセントリックなタスクに対する大規模な実験により、既存のMLLMは、エゴセントリックなビデオ理解において不十分に機能することがわかった。
関連論文リスト
- From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities [7.057604866667723]
本稿では,LVLMにおけるエゴ拡張エゴ表現を学習するためのオンラインego2exo蒸留手法を提案する。
このアプローチは有効であるが、現実のADLシナリオの収集には実用的ではないペア付きエゴエクソトレーニングデータが必要である。
エゴミミック(EgoMimic)は、外心ビデオから模倣エゴビューを生成するスケルトン誘導方式である。
論文 参考訳(メタデータ) (2025-01-10T05:01:58Z) - VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI [17.763461523794806]
VidEgoThinkは、Embodied AIでエゴセントリックなビデオ理解能力を評価するためのベンチマークである。
我々は,ビデオ質問応答,階層計画,視覚的グラウンド,報酬モデリングの4つの重要な相互関連タスクを設計する。
APIベースのMLLM,オープンソースイメージベースのMLLM,オープンソースビデオベースのMLLMの3種類のモデルで広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-15T14:08:53Z) - MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。
エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。
視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文 参考訳(メタデータ) (2024-08-07T06:10:45Z) - EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World [44.34800426136217]
EgoExoLearnは、以下のプロセスで人間の実演をエミュレートするデータセットである。
EgoExoLearnには120時間にわたるエゴセントリックでデモ的なビデオデータが含まれている。
クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを提示する。
論文 参考訳(メタデータ) (2024-03-24T15:00:44Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - EgoDistill: Egocentric Head Motion Distillation for Efficient Video
Understanding [90.9111678470214]
本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。
提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。
Ego4D と EPICKitchens のデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:39:23Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。