論文の概要: Do Audio-Visual Large Language Models Really See and Hear?
- arxiv url: http://arxiv.org/abs/2604.02605v1
- Date: Fri, 03 Apr 2026 00:48:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.259328
- Title: Do Audio-Visual Large Language Models Really See and Hear?
- Title(参考訳): オーディオ・ビジュアルの大規模言語モデルは本当に耳に聞こえているか?
- Authors: Ramaneswaran Selvakumar, Kaousheik Jayakumar, S Sakshi, Sreyan Ghosh, Ruohan Gao, Dinesh Manocha,
- Abstract要約: 我々は音声と視覚機能がどのように進化し、最終的なテキスト出力を生成するためにAVLLMの異なる層を融合するかを分析する。
AVLLMの基本的なモダリティバイアスを明らかにし、マルチモーダルLLMがオーディオとビジョンをどのように統合するかに関する新しい力学的な洞察を提供する。
- 参考スコア(独自算出の注目度): 66.8531220331223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-Visual Large Language Models (AVLLMs) are emerging as unified interfaces to multimodal perception. We present the first mechanistic interpretability study of AVLLMs, analyzing how audio and visual features evolve and fuse through different layers of an AVLLM to produce the final text outputs. We find that although AVLLMs encode rich audio semantics at intermediate layers, these capabilities largely fail to surface in the final text generation when audio conflicts with vision. Probing analyses show that useful latent audio information is present, but deeper fusion layers disproportionately privilege visual representations that tend to suppress audio cues. We further trace this imbalance to training: the AVLLM's audio behavior strongly matches its vision-language base model, indicating limited additional alignment to audio supervision. Our findings reveal a fundamental modality bias in AVLLMs and provide new mechanistic insights into how multimodal LLMs integrate audio and vision.
- Abstract(参考訳): オーディオ・ビジュアル大言語モデル(AVLLM)はマルチモーダル認識のための統一インターフェースとして登場している。
AVLLMの音響的特徴と視覚的特徴がどのように進化するかを解析し、最終的なテキスト出力を生成するためにAVLLMの異なる層を融合する。
AVLLMは中間層でリッチな音声セマンティクスをエンコードするが、音声が視覚と衝突する場合、これらの機能は最終的なテキスト生成にはほとんど現れない。
提案手法は,有意義な潜時音声情報が存在することを示しているが,より深い融合層は,音声の手がかりを抑える傾向にある視覚的表現を不均等に特権化する。
AVLLMの音声行動は、その視覚言語ベースモデルと強く一致し、オーディオの監督に限定したアライメントを示す。
AVLLMの基本的なモダリティバイアスを明らかにし、マルチモーダルLLMがオーディオとビジョンをどのように統合するかに関する新しい力学的な洞察を提供する。
関連論文リスト
- UALM: Unified Audio Language Model for Understanding, Generation and Reasoning [124.19449187588832]
統一音声言語モデル (Unified Audio Language Model, UALM) は、音声理解、テキスト音声生成、マルチモーダル推論を単一モデルで統一することを目的としている。
最初にUALM-Genを提示する。これは音声トークンを直接予測し,最先端の拡散モデルに匹敵する言語モデルである。
UALM-Reasonは、テキストと音声の両方を中間的思考ステップで活用し、複雑な生成作業を容易にするマルチモーダル推論モデルである。
論文 参考訳(メタデータ) (2025-10-13T22:55:01Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - AVHBench: A Cross-Modal Hallucination Benchmark for Audio-Visual Large Language Models [27.430040932849018]
AVHBenchは、音声視覚モデルの知覚と理解能力を評価するために設計された最初の総合的なベンチマークである。
以上の結果から,既存のLLMはモダリティ間の相互相互作用による幻覚に苦慮していることが明らかとなった。
AVHBenchを用いた簡単なトレーニングは幻覚に対する聴覚的LLMの堅牢性を向上させることを実証する。
論文 参考訳(メタデータ) (2024-10-23T23:36:06Z) - Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time [73.7845280328535]
本稿では、画像と音声のきめ細かい理解を備えた音声視覚LLMであるMeerkatを紹介する。
Meerkatは、音声参照画像の接地、画像案内音声の時間的局所化、音声-視覚的事実チェックといった課題に取り組むことができる。
我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-01T23:32:25Z) - Fine-grained Audio-Visual Joint Representations for Multimodal Large
Language Models [25.660343393359565]
本稿では,マルチモーダル大言語モデル(LLM)のための微細な音声-視覚共同表現(FAVOR)学習フレームワークを提案する。
FAVORは、音声入力ストリーム内の音声および音声イベントと、視覚入力ストリーム内の画像またはビデオを、フレームレベルで同時に知覚する。
FAVORのインタラクティブなデモはhttps://github.com/BriansIDP/AudioVisualLLM.gitで公開されている。
論文 参考訳(メタデータ) (2023-10-09T17:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。