論文の概要: Understanding Textual Capability Degradation in Speech LLMs via Parameter Importance Analysis
- arxiv url: http://arxiv.org/abs/2509.23755v1
- Date: Sun, 28 Sep 2025 09:04:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.424074
- Title: Understanding Textual Capability Degradation in Speech LLMs via Parameter Importance Analysis
- Title(参考訳): パラメータ・コンパタンス分析によるLLMのテキスト能力劣化の理解
- Authors: Chao Wang, Rui-Chen Zheng, Yang Ai, Zhen-Hua Ling,
- Abstract要約: 言語モデル(LLM)への音声の統合は、その能力を大幅に拡張したが、多くの場合、中核となるテキスト能力の弱さを犠牲にしている。
本稿では,パラメータ重要度推定に基づく分析フレームワークを提案する。
レイヤワイズ学習率スケジューリングとローランド適応(LoRA)の2つの緩和戦略について検討する。
実験結果から,両手法は完全な微調整よりもテキスト能力の維持が良好であるとともに,下流の質問応答性能も向上していることがわかった。
- 参考スコア(独自算出の注目度): 54.53152524778821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of speech into Large Language Models (LLMs) has substantially expanded their capabilities, but often at the cost of weakening their core textual competence. This degradation limits the ability of speech-enabled LLMs to fully exploit their pre-trained text-based knowledge. In this work, we analyze the underlying mechanisms of this issue through a focused study of the widely used encoder-adaptor paradigm. We propose an analytical framework based on parameter importance estimation, which reveals that fine-tuning for speech introduces a textual importance distribution shift: the layer-wise allocation of parameters critical to textual reasoning is disrupted. Building on this insight, we investigate two mitigation strategies: layer-wise learning rate scheduling and Low-Rank Adaptation (LoRA), both aim to preserve the original parameter distribution. Experimental results show that both approaches better maintain textual competence than full fine-tuning, while also improving downstream spoken question answering performance. Furthermore, our analysis offers a principled explanation for the effectiveness of the proposed mitigation strategies, linking their benefits to the structural properties of textual knowledge in LLMs.
- Abstract(参考訳): 音声をLLM(Large Language Models)に統合することは、その能力を大幅に拡張したが、多くの場合、中核的なテキスト能力の低下を犠牲にしている。
この劣化により、事前訓練されたテキストベースの知識を完全に活用できる音声対応LLMの能力は制限される。
本研究では,この課題の根底にあるメカニズムを,広く使用されているエンコーダ・アダプタのパラダイムに着目して解析する。
本稿では,パラメータ重要度推定に基づく分析フレームワークを提案し,音声の微調整によってテキスト重要度分布のシフトが生じていることを明らかにする。
この知見に基づいて,レイヤワイド学習率スケジューリングとローランド適応 (LoRA) の2つの緩和戦略について検討する。
実験結果から,両手法は完全な微調整よりもテキスト能力の維持が良好であるとともに,下流の質問応答性能も向上していることがわかった。
さらに,本分析は,LLMにおけるテキスト知識の構造的特性にそれらの利点を関連付けることによって,提案手法の有効性を原理的に説明する。
関連論文リスト
- Behind the Scenes: Mechanistic Interpretability of LoRA-adapted Whisper for Speech Emotion Recognition [5.343939245180883]
Low-Rank Adaptation (LoRA) はパラメータ効率の高い微調整法として人気がある。
音声感情認識のためのWhisperエンコーダにおけるLoRAの体系的機械論的解釈可能性の研究を行った。
以上の結果から,LoRAがエンコーダの階層性を再評価し,経験的洞察と深い機械的理解の両立を図った。
論文 参考訳(メタデータ) (2025-09-10T09:54:27Z) - Integration of Explainable AI Techniques with Large Language Models for Enhanced Interpretability for Sentiment Analysis [0.5120567378386615]
大規模言語モデル(LLM)による感情分析における解釈可能性の重要性
本研究では,LLMを埋め込み層,エンコーダ,デコーダ,アテンション層などのコンポーネントに分解することでSHAP(Shapley Additive Explanations)を適用する手法を提案する。
この方法はStanford Sentiment Treebank (SST-2)データセットを用いて評価され、異なる文が異なる層にどのように影響するかを示す。
論文 参考訳(メタデータ) (2025-03-15T01:37:54Z) - Semantic Consistency Regularization with Large Language Models for Semi-supervised Sentiment Analysis [20.503153899462323]
本稿では,半教師付き感情分析のためのフレームワークを提案する。
テキストを意味的に拡張する2つのプロンプト戦略を導入する。
実験により,従来の半教師付き手法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2025-01-29T12:03:11Z) - Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting [31.8820901475938]
強化学習(Reinforcement Learning、RL)は、大規模言語モデル(LLM)知識を逐次意思決定タスクと整合させるための有望なアプローチである。
テキスト環境下でのRL学習後の定式化を促進するために,LLMの感度を解析するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T18:25:35Z) - Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs [12.48241058167222]
大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む際に、顕著な効率性を示した。
しかし、数学や物理学の限界など、推論を必要とするタスクに苦しむことが研究によって明らかになっている。
このことは、LLMが組み込み知識を本当に理解しているか、それとも、コンテンツに対する真の理解なしにトークン分布を複製することを学ぶだけなのかという疑問を提起する。
モデルの推論能力を高めるために,新しいパラメータ効率細調整法であるDecon Causal Adaptation (DCA)を提案する。
論文 参考訳(メタデータ) (2024-09-04T13:17:09Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。