論文の概要: Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering
- arxiv url: http://arxiv.org/abs/2603.06854v1
- Date: Fri, 06 Mar 2026 20:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.207267
- Title: Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering
- Title(参考訳): 音声言語モデルは聴くか? 適応型オーディオステアリングのための音声専門的頭部
- Authors: Neta Glazer, Lenny Aharon, Ethan Fetaya,
- Abstract要約: マルチモーダルな大言語モデルは、非テキスト入力の予測を下方修正する代わりに、言語的先行を過度に考慮して、テキスト優位性を示すことができる。
例えば、重要な情報を含む場合でも、決定的な音声証拠を過小評価できる大規模な音声言語モデル(LALM)がある。
我々は,この信号がモデルの出力に影響を与えると増加することを示し,標準的プロンプトの下での音響エンゲージメントの指標を提供する。
- 参考スコア(独自算出の注目度): 10.510226262026755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models can exhibit text dominance, over-relying on linguistic priors instead of grounding predictions in non-text inputs. One example is large audio-language models (LALMs) where decisive audio evidence can be under-utilized even when it contains important information. To address this issue we use mechanistic interpretability to identify a small set of audio-specialist attention heads whose audio attention yields a ``listening'' signal. We show that this signal increases when audio evidence affects the model's output, providing an indicator of audio engagement under standard prompting. Leveraging this localization, we construct an audio--silence steering direction and apply an inference-time activation intervention to the final representation, amplifying the model's audio effect. To demonstrate the utility of this intervention, we show on MMAU that this improves accuracy by up to +8.0 percentage points on two Qwen-based LALMs, without any parameter updates.
- Abstract(参考訳): マルチモーダルな大言語モデルは、非テキスト入力の予測を下方修正する代わりに、言語的先行を過度に考慮して、テキスト優位性を示すことができる。
例えば、重要な情報を含む場合でも、決定的な音声証拠を過小評価できる大規模な音声言語モデル(LALM)がある。
この問題に対処するために、我々は機械的解釈可能性を用いて、音声の注意が「リスニング」信号をもたらす小さなオーディオ・スペシャリストのアテンションヘッドを識別する。
我々は,この信号がモデルの出力に影響を与えると増加することを示し,標準的プロンプトの下での音響エンゲージメントの指標を提供する。
このローカライゼーションを活用して、音声-サイレンス・ステアリングの方向を構築し、最終的な表現に推論時アクティベーションの介入を適用し、モデルのオーディオ効果を増幅する。
この介入の有効性を示すため、MMAUではパラメータ更新を行わずに、2つのQwenベースのLALMにおいて最大8.0ポイントの精度向上を図っている。
関連論文リスト
- UALM: Unified Audio Language Model for Understanding, Generation and Reasoning [124.19449187588832]
統一音声言語モデル (Unified Audio Language Model, UALM) は、音声理解、テキスト音声生成、マルチモーダル推論を単一モデルで統一することを目的としている。
最初にUALM-Genを提示する。これは音声トークンを直接予測し,最先端の拡散モデルに匹敵する言語モデルである。
UALM-Reasonは、テキストと音声の両方を中間的思考ステップで活用し、複雑な生成作業を容易にするマルチモーダル推論モデルである。
論文 参考訳(メタデータ) (2025-10-13T22:55:01Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models [0.9285295512807729]
AQA(Audio Question Answering)タスクには、オーディオイベント分類、オーディオキャプション、オープンエンド推論が含まれる。
LALMは一般的な音声理解では優れているが、時間的推論では限られている。
本稿では,音声時間的推論におけるこれらの課題と限界について述べる。
論文 参考訳(メタデータ) (2024-09-10T05:26:53Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。