論文の概要: Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS
- arxiv url: http://arxiv.org/abs/2510.22603v1
- Date: Sun, 26 Oct 2025 09:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.542802
- Title: Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS
- Title(参考訳): LLMSを用いた音声認識における注意シンクと大量活動の緩和
- Authors: Anand, Umberto Cappellazzo, Stavros Petridis, Maja Pantic,
- Abstract要約: 大型言語モデル(LLM)における注意シンクと大規模アクティベーションに関する研究
我々は,BOSと他のトークンとのコサイン類似性を低減し,中間シンクと大規模な活性化を効果的に緩和する単純なデコリレーション損失を導入する。
提案手法は,低サンプリングレートで安定に保ちながら,高い音声・視覚特性下での単語誤り率(WER)を向上する。
- 参考スコア(独自算出の注目度): 27.02559478797257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently advanced auditory speech recognition (ASR), visual speech recognition (VSR), and audio-visual speech recognition (AVSR). However, understanding of their internal dynamics under fine-tuning remains limited. In natural language processing, recent work has revealed attention sinks, tokens that attract disproportionately high attention, and associated massive activations in which some features of sink tokens exhibit huge activation in LLMs. In this work, we are the first to study these phenomena in multimodal speech recognition. Through a detailed analysis of audio-visual LLMs, we identify attention sinks and massive activations not only at the BOS token but also at intermediate low-semantic tokens across ASR, VSR, and AVSR. We show that massive activations originate in the MLP layers and correspond to fixed feature indices across all sink tokens. We further show that intermediate sink tokens exhibit high cosine similarity to the BOS token, thereby amplifying attention and activation. Building on these insights, we introduce a simple decorrelation loss that reduces cosine similarity between BOS and other tokens, effectively mitigating intermediate sinks and massive activations. Furthermore, our method improves word error rate (WER) under high audio-visual feature downsampling while remaining stable at lower downsampling rates.
- Abstract(参考訳): 大規模言語モデル(LLM)は、近年、聴覚音声認識(ASR)、視覚音声認識(VSR)、音声視覚音声認識(AVSR)が進歩している。
しかし、微調整による内部力学の理解は依然として限られている。
自然言語処理において、最近の研究は注意シンク、不均等に高い注意を引き付けるトークン、そしていくつかの特徴を持つシンクトークンがLLMにおいて大きな活性化を示す巨大な活性化を明らかにしている。
本研究では,これらの現象をマルチモーダル音声認識において初めて研究する。
音声・視覚的LLMの詳細な解析により,BOSトークンだけでなく,ASR,VSR,AVSRの中間的低セマンティックトークンでも注目シンクや大規模アクティベーションが検出される。
大規模な活性化はMLP層に起因し,すべてのシンクトークンにまたがる固定特徴指標に対応することを示す。
さらに,中間シンクトークンはBOSトークンと高いコサイン類似性を示し,注意と活性化を増幅することを示した。
これらの知見に基づいて、BOSと他のトークンとのコサイン類似性を低減し、中間シンクと大規模な活性化を効果的に緩和する単純なデコリレーション損失を導入する。
さらに,本手法は,低サンプリングレートで安定を維持しつつ,高い音声・視覚特性下での単語誤り率(WER)を向上する。
関連論文リスト
- AttAnchor: Guiding Cross-Modal Token Alignment in VLMs with Attention Anchors [3.9039205692819547]
本研究では,意味論的に類似したトークンをモダリティ間で効率的にグループ化するパラメータフリーフレームワークであるAttention Anchorを提案する。
関連する視覚的パッチの近くにテキストトークンを挿入することで、真のコンテンツベースのクロスモーダルアテンションスコアを示すセマンティックなサインポストを作成する。
AttAnchorは15のメトリクスとベンチマークのうち13の改善を実現している。
論文 参考訳(メタデータ) (2025-09-27T04:37:26Z) - Artifacts and Attention Sinks: Structured Approximations for Efficient Vision Transformers [8.486148475471271]
ビジョントランスフォーマーは幅広いアプリケーションにまたがる強力なツールとして登場したが、内部の動作は部分的にしか理解されていない。
大量のトークン – 注目シンクとして機能する極めて高いアクティベーション規範を持つトークン – と,推論中に副産物として現れるアーティファクトトークン – の現象について検討する。
我々は、線形時間と空間における自己注意を近似する訓練不要なFast Nystr"om Attention (FNA)を導入する。
論文 参考訳(メタデータ) (2025-07-21T19:29:03Z) - Autoregressive Speech Enhancement via Acoustic Tokens [12.77742493025067]
音声強調のための音響トークンの性能について検討し,新しいトランスデューサに基づく自己回帰アーキテクチャを提案する。
VoiceBankとLibri1データセットの実験では、話者識別の保存の観点から、音響トークンがセマンティックトークンより優れていることが示されている。
論文 参考訳(メタデータ) (2025-07-17T06:32:22Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文 参考訳(メタデータ) (2025-03-11T11:52:37Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。