論文の概要: EgoSound: Benchmarking Sound Understanding in Egocentric Videos
- arxiv url: http://arxiv.org/abs/2602.14122v1
- Date: Sun, 15 Feb 2026 12:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.663319
- Title: EgoSound: Benchmarking Sound Understanding in Egocentric Videos
- Title(参考訳): EgoSound:エゴセントリックビデオにおけるサウンド理解のベンチマーク
- Authors: Bingwen Zhu, Yuqian Fu, Qiaole Dong, Guolei Sun, Tianwen Qian, Yuzheng Wu, Danda Pani Paudel, Xiangyang Xue, Yanwei Fu,
- Abstract要約: MLLMにおけるエゴセントリックな音の理解を評価するための最初のベンチマークであるEgoSoundを紹介する。
EgoSoundは、Ego4DとEgoBlindのデータを統合する。
固有音知覚、空間的局所化、因果推論、および相互モーダル推論にまたがる7つのタスクの分類を定義している。
- 参考スコア(独自算出の注目度): 68.1897133235638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have recently achieved remarkable progress in vision-language understanding. Yet, human perception is inherently multisensory, integrating sight, sound, and motion to reason about the world. Among these modalities, sound provides indispensable cues about spatial layout, off-screen events, and causal interactions, particularly in egocentric settings where auditory and visual signals are tightly coupled. To this end, we introduce EgoSound, the first benchmark designed to systematically evaluate egocentric sound understanding in MLLMs. EgoSound unifies data from Ego4D and EgoBlind, encompassing both sighted and sound-dependent experiences. It defines a seven-task taxonomy spanning intrinsic sound perception, spatial localization, causal inference, and cross-modal reasoning. Constructed through a multi-stage auto-generative pipeline, EgoSound contains 7315 validated QA pairs across 900 videos. Comprehensive experiments on nine state-of-the-art MLLMs reveal that current models exhibit emerging auditory reasoning abilities but remain limited in fine-grained spatial and causal understanding. EgoSound establishes a challenging foundation for advancing multisensory egocentric intelligence, bridging the gap between seeing and truly hearing the world.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は近年,視覚言語理解において顕著な進歩を遂げている。
しかし、人間の知覚は本質的に多感覚であり、世界を理解するために視覚、音、動きを統合する。
これらのモダリティの中で、音は空間的レイアウト、オフスクリーンイベント、因果関係、特に聴覚信号と視覚信号が密結合されたエゴセントリックな環境において、必須の手がかりを提供する。
そこで本稿では,MLLMにおけるエゴセントリックな音声理解を体系的に評価する最初のベンチマークであるEgoSoundを紹介する。
EgoSoundは、Ego4DとEgoBlindのデータを統合する。
固有音知覚、空間的局所化、因果推論、および相互モーダル推論にまたがる7つのタスクの分類を定義している。
マルチステージの自動生成パイプラインを通じて構築されたEgoSoundには,900ビデオにわたる7315の検証済みQAペアが含まれている。
9つの最先端MLLMに関する総合的な実験により、現在のモデルでは、聴覚的推論能力は現れるが、きめ細かい空間的および因果的理解では限定的であることが明らかになった。
EgoSoundは、多感覚のエゴセントリックインテリジェンスを推進し、世界を見ることと真に耳を傾けることのギャップを埋めるための、挑戦的な基盤を確立します。
関連論文リスト
- EgoAVU: Egocentric Audio-Visual Understanding [66.1760617001607]
EgoAVUはスケーラブルなデータエンジンで、エゴセントリックな音声・視覚的ナレーション、質問、回答を自動的に生成する。
EgoAVUは、マルチモーダルな文脈で人間のナレーションを豊かにし、クロスモーダルな相関モデルにより音声と視覚のナレーションを生成する。
EgoAVU-Instruct上でのMLLMの微調整はこの問題に効果的に対処し、EgoAVU-Benchの最大113%のパフォーマンス改善を可能にした。
論文 参考訳(メタデータ) (2026-02-05T19:16:55Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。