論文の概要: Behind the Scenes: Mechanistic Interpretability of LoRA-adapted Whisper for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2509.08454v2
- Date: Thu, 11 Sep 2025 16:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 13:52:32.875406
- Title: Behind the Scenes: Mechanistic Interpretability of LoRA-adapted Whisper for Speech Emotion Recognition
- Title(参考訳): 舞台裏--音声認識のためのロラ適応ウィスパーの機械的解釈可能性-
- Authors: Yujian Ma, Jinqiu Sang, Ruizhe Li,
- Abstract要約: Low-Rank Adaptation (LoRA) はパラメータ効率の高い微調整法として人気がある。
音声感情認識のためのWhisperエンコーダにおけるLoRAの体系的機械論的解釈可能性の研究を行った。
以上の結果から,LoRAがエンコーダの階層性を再評価し,経験的洞察と深い機械的理解の両立を図った。
- 参考スコア(独自算出の注目度): 5.343939245180883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained speech models such as Whisper offer strong generalization but pose significant challenges for resource-efficient adaptation. Low-Rank Adaptation (LoRA) has become a popular parameter-efficient fine-tuning method, yet its underlying mechanisms in speech tasks remain poorly understood. In this work, we conduct the first systematic mechanistic interpretability study of LoRA within the Whisper encoder for speech emotion recognition (SER). Using a suite of analytical tools, including layer contribution probing, logit-lens inspection, and representational similarity via singular value decomposition (SVD) and centered kernel alignment (CKA), we reveal two key mechanisms: a delayed specialization process that preserves general features in early layers before consolidating task-specific information, and a forward alignment, backward differentiation dynamic between LoRA's matrices. Our findings clarify how LoRA reshapes encoder hierarchies, providing both empirical insights and a deeper mechanistic understanding for designing efficient and interpretable adaptation strategies in large speech models. Our code is available at https://github.com/harryporry77/Behind-the-Scenes.
- Abstract(参考訳): Whisperのような大規模な事前学習された音声モデルは強力な一般化を提供するが、資源効率の適応には大きな課題がある。
Low-Rank Adaptation (LoRA) はパラメータ効率のよい微調整法として人気があるが、音声タスクの基盤となるメカニズムはよく分かっていない。
本研究では,音声感情認識のためのWhisperエンコーダ(SER)において,LoRAの体系的機械論的解釈可能性に関する最初の研究を行う。
レイヤコントリビューションの探索,ロジットレンズ検査,特異値分解(SVD)と中心核アライメント(CKA)による表現的類似性などの分析ツール群を用いて,タスク固有情報を統合する前に初期層における一般的な特徴を保存する遅延特殊化プロセスと,LoRAの行列間の後方微分ダイナミックな前方アライメントという2つの重要なメカニズムを明らかにする。
以上の結果から,LoRAがエンコーダ階層をいかに再認識し,経験的洞察とより深い機械的理解を両立させ,大規模音声モデルにおける効率的かつ解釈可能な適応戦略の設計に寄与するかが明らかとなった。
私たちのコードはhttps://github.com/harryporry77/Behind-the-Scenes.comで公開されています。
関連論文リスト
- Understanding LoRA as Knowledge Memory: An Empirical Analysis [20.53732426953178]
本稿では,Low-Rank Adaptation (LoRA) をモジュール型知識メモリとして用いたパラメトリック手法について検討する。
このギャップをLoRAベースのメモリの設計空間をマッピングする最初の体系的な経験的研究を通して埋める。
以上の結果から,LORAはRAG,ICCと相補的な記憶軸として位置づけられた。
論文 参考訳(メタデータ) (2026-03-01T13:28:57Z) - Decomposing and Composing: Towards Efficient Vision-Language Continual Learning via Rank-1 Expert Pool in a Single LoRA [50.97792275353563]
単一低ランク適応 (LoRA) モジュールを分解可能な Rank-1 エキスパートプールとして再構成する,新しいフレームワークを提案する。
本手法では,このエキスパートプールから[Guided]トークンのセマンティクスに導かれて,疎結合でタスク固有の更新を動的に作成することを学ぶ。
論文 参考訳(メタデータ) (2026-01-30T10:54:51Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。
我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。
我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文 参考訳(メタデータ) (2025-10-15T08:27:16Z) - Articulation-Informed ASR: Integrating Articulatory Features into ASR via Auxiliary Speech Inversion and Cross-Attention Fusion [7.505518573248786]
我々は深層学習の時代に音声情報を再考する。
本稿では,音声認識モデルに対する補助的タスクと擬似インプットの両方として,調音表現を利用するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-01T21:07:29Z) - Understanding Textual Capability Degradation in Speech LLMs via Parameter Importance Analysis [54.53152524778821]
言語モデル(LLM)への音声の統合は、その能力を大幅に拡張したが、多くの場合、中核となるテキスト能力の弱さを犠牲にしている。
本稿では,パラメータ重要度推定に基づく分析フレームワークを提案する。
レイヤワイズ学習率スケジューリングとローランド適応(LoRA)の2つの緩和戦略について検討する。
実験結果から,両手法は完全な微調整よりもテキスト能力の維持が良好であるとともに,下流の質問応答性能も向上していることがわかった。
論文 参考訳(メタデータ) (2025-09-28T09:04:40Z) - Beyond Transcription: Mechanistic Interpretability in ASR [26.551400592078213]
解釈可能性の手法は、特に大規模言語モデルの文脈において、近年大きな注目を集めている。
我々は,ASRシステムの層間における音響的・意味的情報がどのように進化するかを検証するために,確立された解釈可能性手法を適用し,適用する。
実験の結果,音響表現の奥深くにエンコーダとデコーダの相互作用が繰り返し幻覚や意味的バイアスに関係していることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-21T15:42:53Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Position: Pause Recycling LoRAs and Prioritize Mechanisms to Uncover Limits and Effectiveness [6.3575026653686315]
ローランクアダプタ(LoRA)のマージやルーティングは,大規模言語モデルの拡張手段として人気がある。
本稿は,新たなマージアルゴリズムやルーティングアルゴリズムの開発から,LoRAの再利用が本当に効果的である条件の理解へと,研究コミュニティの焦点を移すことを主張する。
論文 参考訳(メタデータ) (2025-06-16T13:35:22Z) - Two Is Better Than One: Rotations Scale LoRAs [26.617019830475172]
Low-Rank Adaptation (LoRA)ベースのMixture-of-Experts (MoE)は、大規模言語モデル(LLM)が多様なタスクに効率的に適応できるようにする。
入力を最良の専門家にルーティングする従来のゲーティングメカニズムは、LLMのスケーラビリティを根本的に阻害する可能性がある。
本稿では,ロラス表現の回転操作を導入し,幾何学的に着想を得た新しいゲーティング手法であるRadarGateを提案する。
論文 参考訳(メタデータ) (2025-05-29T07:22:43Z) - PIS: Linking Importance Sampling and Attention Mechanisms for Efficient Prompt Compression [3.6268731121741067]
大規模言語モデル(LLM)は目覚ましい進歩を遂げ、様々な自然言語処理タスクにまたがる前例のない能力を示している。
既存のプロンプト圧縮法は、トラルニケーションや抽象的な要約技術に依存している。
本稿では,重要なトークンをサンプリングすることによってプロンプトを動的に圧縮する新しい圧縮フレームワークであるPrompt Importance Smpling(PIS)を紹介する。
論文 参考訳(メタデータ) (2025-04-23T09:53:01Z) - Fraesormer: Learning Adaptive Sparse Transformer for Efficient Food Recognition [9.83509397800422]
2つのコア設計を持つ適応的で効率的なスパーストランスフォーマーアーキテクチャ (Fraesormer) を提案する。
ATK-SPAは学習可能なGated Dynamic Top-K Operator (GDTKO)を使用して重要な注意点を保持する。
HSSFGNはマルチスケールの特徴表現を実現するためにゲーティング機構を採用している。
論文 参考訳(メタデータ) (2025-03-15T05:13:26Z) - Efficient Redundancy Reduction for Open-Vocabulary Semantic Segmentation [36.46163240168576]
Open-vocabulary semantic segmentation (OVSS)は、任意のテキスト記述によって定義された特定のクラスに画像内の各ピクセルを割り当てることを目的としたオープンワールドタスクである。
大規模視覚言語モデルの最近の進歩は、そのオープン語彙理解能力を示している。
本研究では, 冗長性を効果的に低減し, 精度と効率のバランスをとる新しいフレームワークであるERR-Segを紹介する。
論文 参考訳(メタデータ) (2025-01-29T13:24:53Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。
この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。