論文の概要: HeadRouter: Dynamic Head-Weight Routing for Task-Adaptive Audio Token Pruning in Large Audio Language Models
- arxiv url: http://arxiv.org/abs/2604.23717v1
- Date: Sun, 26 Apr 2026 14:00:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.51887
- Title: HeadRouter: Dynamic Head-Weight Routing for Task-Adaptive Audio Token Pruning in Large Audio Language Models
- Title(参考訳): HeadRouter:大規模音声モデルにおけるタスク適応型音声トーケンプルーニングのための動的ヘッドウェイトルーティング
- Authors: Peize He, Yaodi Luo, Xiaoqian Liu, Xuyang Liu, Jiahang Deng, Yaosong Du, Bangyu Li, Xiyan Gui, Yuxuan Chen, Linfeng Zhang,
- Abstract要約: Headは、重要なトークンの保持を最大化するために、異なるオーディオタスクにおけるアテンションヘッドの重要性を知覚する、ヘッドアウェアトークンのプルーニング手法である。
Headは最先端の圧縮性能を実現し、オーディオトークンの70%を保持してもベースラインモデルを超えている。
- 参考スコア(独自算出の注目度): 24.770664867634952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent large audio language models (LALMs) demonstrate remarkable capabilities in processing extended multi-modal sequences, yet incur high inference costs. Token compression is an effective method that directly reduces redundant tokens in the sequence. Existing compression methods usually assume that all attention heads in LALMs contribute equally to various audio tasks and calculate token importance by averaging scores across all heads. However, our analysis demonstrates that attention heads exhibit distinct behaviors across diverse audio domains. We further reveal that only a sparse subset of attention heads actively responds to audio, with completely different performance when handling semantic and acoustic tasks. In light of this observation, we propose HeadRouter, a head-importance-aware token pruning method that perceives the varying importance of attention heads in different audio tasks to maximize the retention of crucial tokens. HeadRouter is training-free and can be applied to various LALMs. Extensive experiments on the AudioMarathon and MMAU-Pro benchmarks demonstrate that HeadRouter achieves state-of-the-art compression performance, exceeding the baseline model even when retaining 70% of the audio tokens and achieving 101.8% and 103.0% of the vanilla average on Qwen2.5-Omni-3B and Qwen2.5-Omni-7B, respectively.
- Abstract(参考訳): 近年の大規模音声言語モデル (LALM) は, 拡張マルチモーダルシーケンスの処理において顕著な性能を示すが, 推論コストは高い。
トークン圧縮は、シーケンス内の冗長トークンを直接削減する有効な方法である。
既存の圧縮手法では、LALMのすべてのアテンションヘッドが様々なオーディオタスクに等しく寄与し、全てのヘッドのスコアを平均化することでトークンの重要度を計算する。
しかし,本分析により,種々の音声領域にまたがる異なる動作が注目ヘッドに現れることが示された。
さらに,意味的タスクや音響的タスクを扱う場合,注意の少ないサブセットのみが音声に積極的に反応することを明らかにする。
本稿では,重要なトークンの保持を最大化するために,異なる音声タスクにおける注目ヘッドの重要性を認識できるヘッドルータを提案する。
HeadRouterはトレーニングなしで、様々なLALMに適用できる。
AudioMarathon と MMAU-Pro ベンチマークの大規模な実験により、HeadRouter は最先端の圧縮性能を達成し、オーディオトークンの70%を保持し、それぞれ Qwen2.5-Omni-3B と Qwen2.5-Omni-7B でバニラ平均の 101.8% と 103.0% を達成している。
関連論文リスト
- CALM: Class-Conditional Sparse Attention Vectors for Large Audio-Language Models [42.7207338433098]
本稿では,クラス依存の重み付けを注目頭上で学習する数ショット分類法を提案する。
我々の手法は、最先端の統一投票方式よりも一貫して優れている。
論文 参考訳(メタデータ) (2026-02-06T01:58:29Z) - AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs [53.248502396225724]
AudioMarathonは、ロングフォームオーディオの理解と推論の効率を評価するために設計されたベンチマークである。
我々は、最先端のLALMを評価し、音声の長さが大きくなるにつれて、明らかな性能低下を観察する。
その結果、現在のLALM間での大きなギャップが示され、時間的推論の改善の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-10-08T17:50:16Z) - High-Fidelity Speech Enhancement via Discrete Audio Tokens [35.61634772862795]
DAC-SE1は言語モデルに基づくSEフレームワークで、離散的な高解像度オーディオ表現を利用する。
実験の結果,DAC-SE1は客観的指標とMUSHRAによる人的評価の両方において,最先端の自己回帰SE法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-10-02T16:38:05Z) - Task-Specific Audio Coding for Machines: Machine-Learned Latent Features Are Codes for That Machine [16.046905753937384]
本研究では、すでに訓練済みの音声/オーディオ下流モデルの任意の中間特徴表現を圧縮・定量化できる効率的なACoM法を提案する。
提案手法では,残差ベクトル量子化(RVQ)損失とともにタスク固有の損失ガイダンスを採用し,ダウンストリームモデルの性能を最小限に抑えた超低コーデック(200bps未満)を提供する。
論文 参考訳(メタデータ) (2025-07-17T00:32:07Z) - Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.17360668423001]
重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。
本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。
実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-05-29T07:47:48Z) - Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (2025-05-12T09:04:16Z) - Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [91.11904427660043]
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。
我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。
以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文 参考訳(メタデータ) (2025-03-04T06:18:34Z) - Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding [93.16866430882204]
先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。
トランスフォーマーネットワークにインスパイアされた本提案手法は,階層型自己注意機構のアーキテクチャを利用する。
より多くのレイヤを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。
論文 参考訳(メタデータ) (2021-07-14T05:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。