FuguReport

Do Audio-Visual Large Language Models Really See and Hear?

著者 Ramaneswaran Selvakumar, Kaousheik Jayakumar, S Sakshi, Sreyan Ghosh, Ruohan Gao, Dinesh Manocha
所属 University of Maryland
カテゴリ Evaluation / Multimodal Model Behavior / Modality bias analysis in AVLLMs, Method / Modality Fusion / Layer fusion for text generation, Task / Multimodal Understanding / Audio and vision integration
ライセンス CC BY 4.0

Abstractの概要

本論文は、音声視覚大規模言語モデル(AVLLM)に対する初の機械論的解釈可能性研究を提示し、キャプション生成時に音声および視覚表現がトランスフォーマーの各層でどのように進化・融合するかを分析している。AudioCapsから収集した500件の事実的および反事実的音声視覚サンプルからなる評価セットを用いて、音声と視覚が矛盾する場合に音声理解が最大56%低下することを示し、強い視覚バイアスの存在を明らかにした。注意分析により、AVLLMは初期層(第0〜5層で40〜50%)では音声に大きく注意を向けるが、深い層ではほぼゼロに低下し、一方で視覚への注意は着実に増加することが示された。ロジットレンズによる中間表現の探索では、最終的なテキスト出力には反映されない意味のある潜在的音声意味論が明らかになり、因果的注意ノックアウト介入により深い層で視覚経路を遮断すると音声性能が相対的に約50%回復することが示された。ベースとなる視覚言語モデル(Qwen2.5VL)との出力トークン分布の比較から、AVLLMの生成は依然として視覚主導であり、このバイアスは継承された学習事前知識に起因する可能性が示唆されている。

新規性

本論文はAVLLMに対する初の機械論的解釈可能性分析として位置づけられている。その独自の貢献は、注意パターン分析、音声トークン表現のロジットレンズ探索、因果的注意ノックアウト介入、およびベース視覚言語モデルとの分布比較を組み合わせ、生成過程において音声情報がどこでエンコードされ、保持され、最終的に視覚事前知識によって抑制されるかを体系的に追跡した点にある。

成果

本研究では、音声と視覚が矛盾する反事実的サンプルにおいて、AVLLMの音声理解が最大56%低下することが報告されている。Qwen2.5-Omniでは、探索された内部表現からの潜在的音声理解が61.4%に達する一方、反事実的サンプルにおける音声キャプションの忠実度はわずか23%にとどまり、深い層で視覚経路を遮断すると音声性能が相対的に約50%回復した。AVLLMの出力分布はベースLVLMに近く(KLダイバージェンス0.4)、音声関連トークンの85.36%が視覚のみのモデルの予測上位3位以内に含まれており、生成が依然として視覚主導であるという結論を裏付けている。

論文の注目点

  1. AVLLMは初期層(第0〜5層で40〜50%)で音声トークンに高い注意を割り当てるが、深い層ではこの注意がほぼゼロに低下し、一方で視覚トークンへの注意は第15〜30層で20〜40%に着実に増加するため、体系的なクロスモーダル非対称性が生じている。
  2. ロジットレンズ探索により、中間の音声表現が意味のある音声関連概念(例:音源やイベント)にデコードされ、最終キャプションの音声忠実度がわずか23%であっても潜在的音声理解は61.4%に達することが明らかになり、問題が表現ではなく生成段階にあることが示された。
  3. ベース視覚言語モデル(Qwen2.5VL)との比較により、AVLLMが生成する音声関連トークンの85.36%が視覚のみのモデルの上位3つの選択肢から予測可能であることが示され、観察された視覚優位性は継承された学習事前知識または視覚偏重のアライメントデータに起因する可能性が示唆されている。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。