論文の概要: Behind the Scenes: Mechanistic Interpretability of LoRA-adapted Whisper for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2509.08454v1
- Date: Wed, 10 Sep 2025 09:54:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.378841
- Title: Behind the Scenes: Mechanistic Interpretability of LoRA-adapted Whisper for Speech Emotion Recognition
- Title(参考訳): 舞台裏--音声認識のためのロラ適応ウィスパーの機械的解釈可能性-
- Authors: Yujian Ma, Jinqiu Sang, Ruizhe Li,
- Abstract要約: 音声感情認識(SER)のためのWhisperエンコーダにおけるLow-Rank Adaptation(LoRA)の最初の体系的機械論的解釈可能性の研究を行う。
タスク固有の情報を統合する前に、初期層における一般的な特徴を保存する遅延特殊化プロセスと、LoRAの行列間の前方方向の微分のダイナミクスを明らかにする。
以上の結果から,LoRAがエンコーダ階層をいかに再認識し,経験的洞察とより深い機械的理解を両立させ,大規模音声モデルにおける効率的かつ解釈可能な適応戦略の設計に寄与するかが明らかとなった。
- 参考スコア(独自算出の注目度): 5.343939245180883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained speech models such as Whisper offer strong generalization but pose significant challenges for resource-efficient adaptation. Low-Rank Adaptation (LoRA) has become a popular parameter-efficient fine-tuning method, yet its underlying mechanisms in speech tasks remain poorly understood. In this work, we conduct the first systematic mechanistic interpretability study of LoRA within the Whisper encoder for speech emotion recognition (SER). Using a suite of analytical tools, including layer contribution probing, logit-lens inspection, and representational similarity via singular value decomposition (SVD) and centered kernel alignment (CKA), we reveal two key mechanisms: a delayed specialization process that preserves general features in early layers before consolidating task-specific information, and a forward alignment, backward differentiation dynamic between LoRA's matrices. Our findings clarify how LoRA reshapes encoder hierarchies, providing both empirical insights and a deeper mechanistic understanding for designing efficient and interpretable adaptation strategies in large speech models.
- Abstract(参考訳): Whisperのような大規模な事前学習された音声モデルは強力な一般化を提供するが、資源効率の適応には大きな課題がある。
Low-Rank Adaptation (LoRA) はパラメータ効率のよい微調整法として人気があるが、音声タスクの基盤となるメカニズムはよく分かっていない。
本研究では,音声感情認識のためのWhisperエンコーダ(SER)において,LoRAの体系的機械論的解釈可能性に関する最初の研究を行う。
レイヤコントリビューションの探索,ロジットレンズ検査,特異値分解(SVD)と中心核アライメント(CKA)による表現的類似性などの分析ツール群を用いて,タスク固有情報を統合する前に初期層における一般的な特徴を保存する遅延特殊化プロセスと,LoRAの行列間の後方微分ダイナミックな前方アライメントという2つの重要なメカニズムを明らかにする。
以上の結果から,LoRAがエンコーダ階層をいかに再認識し,経験的洞察とより深い機械的理解を両立させ,大規模音声モデルにおける効率的かつ解釈可能な適応戦略の設計に寄与するかが明らかとなった。
関連論文リスト
- Beyond Transcription: Mechanistic Interpretability in ASR [26.551400592078213]
解釈可能性の手法は、特に大規模言語モデルの文脈において、近年大きな注目を集めている。
我々は,ASRシステムの層間における音響的・意味的情報がどのように進化するかを検証するために,確立された解釈可能性手法を適用し,適用する。
実験の結果,音響表現の奥深くにエンコーダとデコーダの相互作用が繰り返し幻覚や意味的バイアスに関係していることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-21T15:42:53Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Position: Pause Recycling LoRAs and Prioritize Mechanisms to Uncover Limits and Effectiveness [6.3575026653686315]
ローランクアダプタ(LoRA)のマージやルーティングは,大規模言語モデルの拡張手段として人気がある。
本稿は,新たなマージアルゴリズムやルーティングアルゴリズムの開発から,LoRAの再利用が本当に効果的である条件の理解へと,研究コミュニティの焦点を移すことを主張する。
論文 参考訳(メタデータ) (2025-06-16T13:35:22Z) - PIS: Linking Importance Sampling and Attention Mechanisms for Efficient Prompt Compression [3.6268731121741067]
大規模言語モデル(LLM)は目覚ましい進歩を遂げ、様々な自然言語処理タスクにまたがる前例のない能力を示している。
既存のプロンプト圧縮法は、トラルニケーションや抽象的な要約技術に依存している。
本稿では,重要なトークンをサンプリングすることによってプロンプトを動的に圧縮する新しい圧縮フレームワークであるPrompt Importance Smpling(PIS)を紹介する。
論文 参考訳(メタデータ) (2025-04-23T09:53:01Z) - Efficient Redundancy Reduction for Open-Vocabulary Semantic Segmentation [36.46163240168576]
Open-vocabulary semantic segmentation (OVSS)は、任意のテキスト記述によって定義された特定のクラスに画像内の各ピクセルを割り当てることを目的としたオープンワールドタスクである。
大規模視覚言語モデルの最近の進歩は、そのオープン語彙理解能力を示している。
本研究では, 冗長性を効果的に低減し, 精度と効率のバランスをとる新しいフレームワークであるERR-Segを紹介する。
論文 参考訳(メタデータ) (2025-01-29T13:24:53Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。
この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。