論文の概要: EgoAVU: Egocentric Audio-Visual Understanding
- arxiv url: http://arxiv.org/abs/2602.06139v1
- Date: Thu, 05 Feb 2026 19:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.075805
- Title: EgoAVU: Egocentric Audio-Visual Understanding
- Title(参考訳): EgoAVU:Egocentric Audio-Visual Understanding
- Authors: Ashish Seth, Xinhao Mei, Changsheng Zhao, Varun Nagaraja, Ernie Chang, Gregory P. Meyer, Gael Le Lan, Yunyang Xiong, Vikas Chandra, Yangyang Shi, Dinesh Manocha, Zhipeng Cai,
- Abstract要約: EgoAVUはスケーラブルなデータエンジンで、エゴセントリックな音声・視覚的ナレーション、質問、回答を自動的に生成する。
EgoAVUは、マルチモーダルな文脈で人間のナレーションを豊かにし、クロスモーダルな相関モデルにより音声と視覚のナレーションを生成する。
EgoAVU-Instruct上でのMLLMの微調整はこの問題に効果的に対処し、EgoAVU-Benchの最大113%のパフォーマンス改善を可能にした。
- 参考スコア(独自算出の注目度): 66.1760617001607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding egocentric videos plays a vital role for embodied intelligence. Recent multi-modal large language models (MLLMs) can accept both visual and audio inputs. However, due to the challenge of obtaining text labels with coherent joint-modality information, whether MLLMs can jointly understand both modalities in egocentric videos remains under-explored. To address this problem, we introduce EgoAVU, a scalable data engine to automatically generate egocentric audio-visual narrations, questions, and answers. EgoAVU enriches human narrations with multimodal context and generates audio-visual narrations through cross-modal correlation modeling. Token-based video filtering and modular, graph-based curation ensure both data diversity and quality. Leveraging EgoAVU, we construct EgoAVU-Instruct, a large-scale training dataset of 3M samples, and EgoAVU-Bench, a manually verified evaluation split covering diverse tasks. EgoAVU-Bench clearly reveals the limitations of existing MLLMs: they bias heavily toward visual signals, often neglecting audio cues or failing to correspond audio with the visual source. Finetuning MLLMs on EgoAVU-Instruct effectively addresses this issue, enabling up to 113% performance improvement on EgoAVU-Bench. Such benefits also transfer to other benchmarks such as EgoTempo and EgoIllusion, achieving up to 28% relative performance gain. Code will be released to the community.
- Abstract(参考訳): エゴセントリックなビデオを理解することは、インテリジェンスを具現化する上で重要な役割を果たす。
最近のマルチモーダル大言語モデル(MLLM)は、視覚的入力と音声入力の両方を受け入れることができる。
しかし、コヒーレントな共同モダリティ情報を持つテキストラベルを取得することの難しさから、エゴセントリックビデオにおける両方のモダリティを共同で理解できるかどうかはまだ未検討のままである。
この問題に対処するために,エゴセントリックな音声・視覚的ナレーション,質問,回答を自動的に生成するスケーラブルなデータエンジンであるEgoAVUを導入する。
EgoAVUは、マルチモーダルな文脈で人間のナレーションを豊かにし、クロスモーダルな相関モデルにより音声と視覚のナレーションを生成する。
トークンベースのビデオフィルタリングとグラフィカルなグラフベースのキュレーションは、データの多様性と品質の両方を保証する。
EgoAVUを活用することで、大規模な3MサンプルのトレーニングデータセットであるEgoAVU-Instructと、さまざまなタスクをカバーする手作業による評価分割であるEgoAVU-Benchを構築する。
EgoAVU-Benchは、既存のMLLMの限界を明確に明らかにしている。
EgoAVU-Instruct上でのMLLMの微調整はこの問題に効果的に対処し、EgoAVU-Benchの最大113%のパフォーマンス改善を可能にした。
このようなメリットは、EgoTempoやEgoIllusionといった他のベンチマークにも移行し、パフォーマンスの相対的な向上を最大28%達成している。
コードはコミュニティに公開される。
関連論文リスト
- Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding [69.96199605596138]
現在のMLLMは、主に第三者(外見中心)のビジョンに焦点を当てており、一対一(自我中心)の動画のユニークな側面を見下ろしている。
本研究では,エゴ中心領域とエゴ中心領域のマッピングを学習し,エゴ中心領域の理解を高めることを提案する。
Ego-ExoClipは1.1M同期のEgo-Exoクリップテキストペアからなる事前学習データセットである。
論文 参考訳(メタデータ) (2025-03-12T08:10:33Z) - MM-Ego: Towards Building Egocentric Multimodal LLMs for Video QA [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
Ego4Dでは,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを自動生成する。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? [48.702973928321946]
Egocentric Video-Language Pretrainingは、一対一のシナリオにおける手動対話の理解を促進するための重要なステップである。
既存のテストベッドでの成功にもかかわらず、現在のEgoVLMは簡単な修正によって容易に誤認できることがわかった。
EgoVLMは手動オブジェクトの相互作用を本当に理解していますか?
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos [77.55518265996312]
そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。
我々のマルチモーダルコントラッシブ・コンセンサス・コーディング(MC3)埋め込みは、すべてのモダリティ対が一致するとき、オーディオ、言語、視覚の関連を強化します。
論文 参考訳(メタデータ) (2024-04-08T05:19:28Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。