論文の概要: Exploring Audio Hallucination in Egocentric Video Understanding
- arxiv url: http://arxiv.org/abs/2604.23860v1
- Date: Sun, 26 Apr 2026 20:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.598543
- Title: Exploring Audio Hallucination in Egocentric Video Understanding
- Title(参考訳): エゴセントリックビデオ理解における聴覚幻覚の探索
- Authors: Ashish Seth, Xinhao Mei, Changsheng Zhao, Varun Nagaraja, Ernie Chang, Gregory P. Meyer, Gael Le Lan, Yunyang Xiong, Vikas Chandra, Yangyang Shi, Dinesh Manocha, Zhipeng Cai,
- Abstract要約: 最先端の大規模音声視覚言語モデル(AV-LLM)はマルチモーダルな記述を生成することができる。
本研究では、視覚的手がかりから音を推測するが、聴くことができない。
- 参考スコア(独自算出の注目度): 66.1760617001607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Egocentric videos provide a distinctive setting in which sound serves as crucial cues to understand user activities and surroundings, particularly when visual information is unstable or occluded due to continuous camera movement. State-of-the-art large audio-visual language models (AV-LLMs) can generate multimodal descriptions. However, we show in this work that they are prone to audio hallucinations, often inferring sounds from visual cues that are visible but not heard. We present a systematic and automatic evaluation framework for analyzing audio hallucinations in egocentric video through a targeted question-answering (Q/A) protocol. We curate a dataset of 300 egocentric videos and design 1,000 sound-focused questions to probe model outputs. To characterize hallucinations, we propose a grounded taxonomy that distinguishes between foreground action sounds from the user activities and background ambient sounds. Our evaluation shows that advanced AV-LLMs, such as Qwen2.5 Omni, exhibit high hallucination rates, achieving only 27.3% and 39.5% accuracy on Q/As related to foreground and background sounds, respectively. With this work, we highlight the need to measure the reliability of multimodal responses, emphasizing that robust evaluation of hallucinations is essential to develop reliable AV-LLMs.
- Abstract(参考訳): エゴセントリックなビデオは、音がユーザーの活動や周囲を理解するための重要な手がかりとなる、特に連続したカメラの動きによって視覚情報が不安定または隠蔽されている場合に、特有の設定を提供する。
最先端の大規模音声視覚言語モデル(AV-LLM)はマルチモーダルな記述を生成することができる。
しかし,本研究では聴覚幻覚の傾向を示し,視覚的手がかりから音を推測することが多い。
対象とする質問応答(Q/A)プロトコルを用いて,エゴセントリックビデオにおける音声幻覚の分析を行うための,体系的かつ自動評価フレームワークを提案する。
我々は300のエゴセントリックなビデオのデータセットをキュレートし、1000の音に焦点を当てた質問を設計し、モデル出力を探索する。
幻覚を特徴付けるために,前景動作音とユーザ活動と背景環境音とを区別する基底分類法を提案する。
評価の結果,Qwen2.5 Omni などの高度 AV-LLM は高い幻覚率を示し,前景および背景音に関連するQ/A の精度は27.3%,39.5% であった。
本研究は,マルチモーダル応答の信頼性を計測することの必要性を強調し,信頼性の高いAV-LLMを開発する上で,幻覚の堅牢な評価が不可欠であることを強調した。
関連論文リスト
- HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models [30.18524844766061]
HalluAudioは、音声、環境音、音楽の幻覚を評価するための最初の大規模ベンチマークである。
HalluAudioは、5万以上の人間による検証されたQAペアで構成され、バイナリ判断、複数選択推論、属性検証、オープンエンドQAなど、さまざまなタスクタイプにまたがる。
以上の結果から, 音場, 時間的推論, 音楽属性の理解において, 信頼性とロバスト性を考慮したLALMの必要性が示唆された。
論文 参考訳(メタデータ) (2026-04-21T10:05:28Z) - Don't Let the Video Speak: Audio-Contrastive Preference Optimization for Audio-Visual Language Models [57.29797562658234]
オーディオ・ビジュアル言語モデル(AVLM)によるクロスモーダル幻覚のボトルネック
本稿では、この深い視覚的優位性に対応するために、オーディオコントラスト優先最適化(ACPO)を提案する。
ACPOは、音響事実としての視覚的記述をペナライズする出力コントラスト目的と、真の聴覚信号に不変な生成を明示的にペナライズするためにオーディオトラックを交換する入力コントラスト目的を導入する。
論文 参考訳(メタデータ) (2026-04-15T17:51:28Z) - EgoSound: Benchmarking Sound Understanding in Egocentric Videos [68.1897133235638]
MLLMにおけるエゴセントリックな音の理解を評価するための最初のベンチマークであるEgoSoundを紹介する。
EgoSoundは、Ego4DとEgoBlindのデータを統合する。
固有音知覚、空間的局所化、因果推論、および相互モーダル推論にまたがる7つのタスクの分類を定義している。
論文 参考訳(メタデータ) (2026-02-15T12:46:35Z) - JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation [16.067014259345743]
我々は、データセット上で、視覚のみ、音声のみ、およびOmni-LLMを優先的に評価する。
最高性能のOmni-LLMでさえ平均精度は62.6%であり、ユニモーダルベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-14T17:23:21Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:53:12Z) - Thinking Hallucination for Video Captioning [0.76146285961466]
ビデオキャプションでは、対象と行動の幻覚の2種類がある。
その結果, (i) 事前学習モデルから抽出した視覚的特徴が不十分であること, (ii) マルチモーダル融合時のソースおよびターゲットコンテキストへの影響が不適切なこと, (iii) トレーニング戦略における露出バイアスであること,の3つの要因が明らかになった。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-09-28T06:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。