論文の概要: Pay More Attention To Audio: Mitigating Imbalance of Cross-Modal Attention in Large Audio Language Models
- arxiv url: http://arxiv.org/abs/2509.18816v1
- Date: Tue, 23 Sep 2025 09:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.787735
- Title: Pay More Attention To Audio: Mitigating Imbalance of Cross-Modal Attention in Large Audio Language Models
- Title(参考訳): 音声にもっと注意を払う: 大規模音声モデルにおける横断的注意の不均衡の軽減
- Authors: Junyu Wang, Ziyang Ma, Zhengding Luo, Tianrui Wang, Meng Ge, Xiaobao Wang, Longbiao Wang,
- Abstract要約: MATAはLALMを動的にプッシュして、自己保持機構内で textbfMore textbfAttention textbfTo textbfAudioトークンを支払います。
MMAUとMMARベンチマークの実験により、MATAの有効性が確認され、一貫した性能が向上した。
- 参考スコア(独自算出の注目度): 60.857389526958485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Audio-Language Models (LALMs) often suffer from audio-textual attention imbalance, prioritizing text over acoustic information, particularly in the multi-modal fusion layers of the Transformer architecture. This bias hinders their ability to fully utilize acoustic cues, causing suboptimal performance on audio reasoning tasks. To mitigate this, we propose \textbf{MATA}, a novel training-free method that dynamically pushes LALMs to pay \textbf{M}ore \textbf{A}ttention \textbf{T}o \textbf{A}udio tokens within the self-attention mechanism. Specifically, MATA intervenes post raw attention scoring, targeting only the last token in intermediate layers without introducing additional parameters or computational overhead. Experiments on the MMAU and MMAR benchmarks confirm MATA's effectiveness, with consistent performance gains. Notably, on MMAR, MATA enables an open-source model to surpass the proprietary Gemini 2.0 Flash for the first time. Our work provides an efficient solution to mitigate attention bias and opens a new research direction for enhancing the audio-processing capabilities of multi-modal models.
- Abstract(参考訳): 大規模オーディオ言語モデル(LALM)は、特にトランスフォーマーアーキテクチャのマルチモーダル融合層において、音響情報よりもテキストを優先し、音声とテキストのアンバランスに悩まされることが多い。
このバイアスは、音響的手がかりを完全に活用する能力を妨げるため、音声推論タスクにおいて最適以下のパフォーマンスをもたらす。
これを軽減するために, LALM を動的にプッシュして, 自己保持機構内に \textbf{M}ore \textbf{A}ttention \textbf{T}o \textbf{A}udio tokens を支払う新しいトレーニングフリー手法である \textbf{MATA} を提案する。
具体的には、MATAは、追加のパラメータや計算オーバーヘッドを導入することなく、中間層における最後のトークンのみをターゲットとして、生のアテンションスコアを介入する。
MMAUとMMARベンチマークの実験により、MATAの有効性が確認され、一貫した性能が向上した。
特にMMARでは、MATAはオープンソースモデルがプロプライエタリなGemini 2.0 Flashを初めて上回ることを可能にする。
我々の研究は、注意バイアスを軽減するための効率的なソリューションを提供し、マルチモーダルモデルの音声処理能力を高めるための新たな研究方向を開く。
関連論文リスト
- When Audio and Text Disagree: Revealing Text Bias in Large Audio-Language Models [18.160420407067743]
MCR-BENCHは、LALMが一貫性のない音声テキストペアを提示する際にどのように情報を優先するかを評価するために設計された最初のベンチマークである。
モダリティ間に不整合が存在する場合、LALMはテキスト入力に対して有意なバイアスを示す。
この傾向は、オーディオ中心のタスクのパフォーマンスを著しく低下させ、現実世界のアプリケーションにとって重要な信頼性上の懸念を引き起こす。
論文 参考訳(メタデータ) (2025-08-21T09:58:24Z) - Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model [85.72664004969182]
本稿では,AQAA(Audio-Audio Answer)タスク用に設計された完全エンドツーエンドのLALMであるStep-Audio-AQAAを紹介する。
このモデルは、言語的特徴抽出と意味的特徴抽出のためのデュアルコードブックオーディオトークンーザを統合している。
我々のポストトレーニングアプローチでは、意味的コヒーレンスを高めるために、テキストとオーディオのインターリーブドトークンアウトプットを用いる。
論文 参考訳(メタデータ) (2025-06-10T16:37:39Z) - Fork-Merge Decoding: Enhancing Multimodal Understanding in Audio-Visual Large Language Models [13.887164304514101]
本研究の目的は、音声・視覚大言語モデル(AV-LLM)におけるバランスの取れたマルチモーダル理解を強化することである。
現在のAV-LLMでは、オーディオとビデオの機能はデコーダで共同で処理されるのが一般的である。
Fork-Merge Decoding (FMD) は、追加のトレーニングやアーキテクチャの変更を必要としない、シンプルで効果的な推論時間戦略である。
論文 参考訳(メタデータ) (2025-05-27T08:22:56Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Audio Mamba: Bidirectional State Space Model for Audio Representation Learning [15.472819870523093]
本稿では,音声分類のためのSSMベースモデルとして,自己注意のない初のAudio Mambaを紹介する。
我々は、AuMを6つの異なるベンチマークを含む様々なオーディオデータセットで評価し、同等またはより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-05T15:00:59Z) - uaMix-MAE: Efficient Tuning of Pretrained Audio Transformers with Unsupervised Audio Mixtures [16.59243476473915]
Masked Autoencoders (MAE) はラベルのないデータからリッチな低レベル表現を学習する。
IDは高レベルのセマンティクスを強調し、MAEのアノテーション要求を緩和する潜在的なソリューションを提供する。
我々は、教師なしオーディオミキシングを利用する効率的なIDチューニング戦略であるuaMix-MAEを紹介する。
論文 参考訳(メタデータ) (2024-03-14T17:13:37Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。