論文の概要: Spectral Insights into Data-Oblivious Critical Layers in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.00382v2
- Date: Wed, 04 Jun 2025 18:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 14:14:43.15273
- Title: Spectral Insights into Data-Oblivious Critical Layers in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるデータ公開クリティカルレイヤのスペクトル的考察
- Authors: Xuyuan Liu, Lei Hsiung, Yaoqing Yang, Yujun Yan,
- Abstract要約: 我々は,事前調整言語モデルにおいて,本質的な臨界層を特定するためのデータ公開アプローチを提案する。
表現空間が著しく変化する層も微調整時に最も影響を受ける層であることを示す。
- 参考スコア(独自算出の注目度): 7.486925126518052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding how feature representations evolve across layers in large language models (LLMs) is key to improving their interpretability and robustness. While recent studies have identified critical layers linked to specific functions or behaviors, these efforts typically rely on data-dependent analyses of fine-tuned models, limiting their use to post-hoc settings. In contrast, we introduce a data-oblivious approach to identify intrinsic critical layers in pre-fine-tuned LLMs by analyzing representation dynamics via Centered Kernel Alignment(CKA). We show that layers with significant shifts in representation space are also those most affected during fine-tuning--a pattern that holds consistently across tasks for a given model. Our spectral analysis further reveals that these shifts are driven by changes in the top principal components, which encode semantic transitions from rationales to conclusions. We further apply these findings to two practical scenarios: efficient domain adaptation, where fine-tuning critical layers leads to greater loss reduction compared to non-critical layers; and backdoor defense, where freezing them reduces attack success rates by up to 40%.
- Abstract(参考訳): 大きな言語モデル(LLM)のレイヤ間で機能表現がどのように進化するかを理解することが、その解釈可能性と堅牢性を改善する鍵となる。
最近の研究では、特定の機能や振る舞いに関連する重要なレイヤが特定されているが、これらの取り組みは典型的には、微調整されたモデルのデータ依存の分析に依存しており、その使用をポストホック設定に制限している。
対照的に、我々は、CKA(Centered Kernel Alignment)による表現力学を解析することにより、あらかじめ調整したLLMの固有臨界層を識別するデータ公開アプローチを導入している。
表現空間に顕著なシフトを持つ層は、微調整時に最も影響を受ける層でもある。
スペクトル分析により、これらのシフトは、有理から結論への意味的遷移をエンコードする主成分の変化によってもたらされることが明らかとなった。
さらに、これらの知見を2つの実践シナリオに適用する: 効率的なドメイン適応、微調整された臨界層は非臨界層に比べて損失を減少させる、バックドアディフェンス、凍結が攻撃成功率を最大40%削減する。
関連論文リスト
- Holes in Latent Space: Topological Signatures Under Adversarial Influence [1.193044160835091]
我々は,言語モデルにおける多スケール潜在空間力学を特徴付けるために,トポロジカルデータ解析のツールである永続ホモロジー(PH)を提案する。
逆数条件は連続的に遅延トポロジを圧縮し、より小さなスケールで構造的多様性を低減し、粗いトポロジにおける支配的特徴を増幅することを示した。
本稿では,層内および層間を流れる情報の流れを定量化するニューロンレベルのPHフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T18:31:49Z) - Mechanistic Interpretability of GPT-like Models on Summarization Tasks [2.4022340214033915]
本稿では,GPTライクなモデルが要約タスクにどのように適応するかを解析するための解釈可能性フレームワークを提案する。
重要な変換を行う特定のレイヤとアテンションヘッドを識別することにより、モデルアーキテクチャ内の"要約回路"を見つける。
論文 参考訳(メタデータ) (2025-05-20T02:15:11Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Layer by Layer: Uncovering Hidden Representations in Language Models [28.304269706993942]
中間層がよりリッチな表現をエンコードできることを示し、ダウンストリームタスクの幅広いパフォーマンスを改善することがよくある。
本フレームワークでは,各モデル層が情報圧縮と信号保存のバランスをとる方法を強調している。
これらの知見は、最終層埋め込みに標準的焦点をあて、モデル解析と最適化のための新しい方向を開くことに挑戦する。
論文 参考訳(メタデータ) (2025-02-04T05:03:42Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Understanding Layer Significance in LLM Alignment [23.582520695083588]
大規模言語モデル内のどの層がアライメントプロセスに最も重要かを特定することを提案する。
実験の結果、アライメントデータセットにかなりの違いがあるにもかかわらず、モデルの重要層が90%近く重複していることが判明した。
また, 最重要層を選択的に調整することで, 性能損失を最小限に抑え, 微調整効率を著しく向上させることができた。
論文 参考訳(メタデータ) (2024-10-23T13:47:05Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Understanding and Diagnosing Vulnerability under Adversarial Attacks [62.661498155101654]
ディープニューラルネットワーク(DNN)は敵の攻撃に弱いことが知られている。
本稿では,潜在変数の分類に使用される特徴を説明するために,新しい解釈可能性手法であるInterpretGANを提案する。
また、各層がもたらす脆弱性を定量化する最初の診断方法も設計する。
論文 参考訳(メタデータ) (2020-07-17T01:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。