Exploring Audio Hallucination in Egocentric Video Understanding
Abstractの概要
本論文は、一人称視点動画理解における音声ハルシネーションを研究している。音声視覚言語モデル(AV-LLM)が、視覚的に示唆されているが実際には音声中に存在しない音を記述してしまう現象を対象としている。著者らは、300本のEgo4D動画クリップと1,000件の手動レビュー済み音声焦点Q/Aペアからなるキュレーションされたベンチマークを用いて、ターゲット型質問応答に基づく体系的な評価フレームワークを導入した。このフレームワークは、カメラ装着者が生成する前景のアクション音と背景の環境音を区別し、ハルシネーション挙動のきめ細かな分析を可能にしている。4つのAV-LLMに対する実験では、これらのモデルが音声信号に基づいた応答をするのではなく、視覚的コンテキストに依存する傾向があり、ハルシネーション検出精度が全モデルにおいて事実Q/A精度を大幅に下回ることが示された。
新規性
本論文は、一人称視点動画における音声ハルシネーションに特化した初のタクソノミー駆動型評価を提示している。主な独自の貢献は、前景のアクション音と背景の環境音を分離するソースグラウンデッドなベンチマークおよびQ/Aプロトコルであり、専用のハルシネーションQ/Aペアを通じて、もっともらしいが実際には存在しない音声イベントを明示的にテストする点にある。
成果
4つのAV-LLMにおいて、ハルシネーション検出精度は事実Q/A精度を大幅に下回った。最も高性能なモデルであるQwen2.5 Omniは、前景および背景のハルシネーションQ/Aでそれぞれ27.3%と39.5%の精度にとどまり、事実Q/Aの精度56.2%および63.4%と比較して著しく低い結果となった。定性的分析では、実際の音の不正確なグラウンディングと、視覚的コンテキストに影響されてもっともらしいが存在しない音源を捏造するクロスモーダルハルシネーションという2つの繰り返し発生する失敗モードが特定された。
論文の注目点
- 著者らは、300本の一人称視点Ego4Dクリップと1,000件の手動レビュー済み音声焦点Q/Aペアからベンチマークを構築し、音源マッチングとQ/A生成の2段階パイプラインを用いて音声ハルシネーションを体系的に評価している。
- 前景のユーザー生成アクション音と背景の環境音を分離するグラウンデッドタクソノミーを提案しており、モデルエラーのより詳細な分析を可能にし、全モデルにおいて背景音が前景音よりも一貫して高い精度を示すことを明らかにしている。
- 4つのAV-LLMに対する実験では、最も高性能なモデル(Qwen2.5 Omni)でさえ高いハルシネーション率を示し、全モデルがハルシネーション検出において事実Q/Aよりも大幅に低い性能を示したことから、実際の音声トラックではなく視覚的事前知識への強い依存が示唆された。