論文の概要: Feature Geometry of LoRA Adapters: A Sparse Autoencoder Analysis of Representational Divergence in Fine-Tuned Language Models
- arxiv url: http://arxiv.org/abs/2605.28896v1
- Date: Wed, 27 May 2026 11:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.034063
- Title: Feature Geometry of LoRA Adapters: A Sparse Autoencoder Analysis of Representational Divergence in Fine-Tuned Language Models
- Title(参考訳): LoRAアダプタの特徴幾何学:微調整言語モデルにおける表現の多様性のスパースオートエンコーダ解析
- Authors: Prasanth K K,
- Abstract要約: Low-Rank Adaptation (LoRA) は、大規模言語モデルに適用するための広く採用されているアプローチである。
本研究では,Sparse Autoencoders (SAEs) を用いたLoRAによる表現の幾何学について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-Rank Adaptation (LoRA) has emerged as a widely adopted approach for adapting large language models, yet the internal representational changes induced by LoRA fine-tuning remain insufficiently understood. In this work, we investigate the geometry of LoRA-induced representations using Sparse Autoencoders (SAEs). We introduce a delta activation framework that isolates the adapter-specific contribution to the residual stream. Using Gemma-2-9B with LoRA ranks 4, 8, 16, and 32, we train adapter-specific SAEs across multiple transformer layers and compare their learned feature spaces with pretrained SAE dictionaries. We evaluate representational alignment using cosine similarity between decoder directions, principal-angle analysis of feature subspaces, and Centered Kernel Alignment (CKA) between activation representations. Across layers and ranks, we consistently observe comparatively weak geometric alignment between LoRA-induced feature dictionaries and pretrained SAE features. Adapter-specific SAEs also reconstruct delta activations more effectively than pretrained SAEs, suggesting that LoRA updates occupy partially distinct representational structure within the residual stream. Additionally, feature density increases with rank and depth, while geometric divergence remains relatively stable across ranks. These findings provide empirical evidence that LoRA fine-tuning can induce feature structures that are not fully captured by pretrained interpretability dictionaries, with implications for mechanistic interpretability, adaptation analysis, and safety auditing of fine-tuned language models.
- Abstract(参考訳): Low-Rank Adaptation (LoRA) は、大規模言語モデルに適用するための広く採用されているアプローチとして登場したが、LoRAの微調整によって引き起こされる内部表現の変化は、まだ十分に理解されていない。
本研究では,Sparse Autoencoders (SAEs) を用いたLoRAによる表現の幾何学について検討する。
残ストリームに対するアダプタ固有のコントリビューションを分離するデルタアクティベーションフレームワークを導入する。
Gemma-2-9BとLoRAのランク4, 8, 16, 32を用いて,複数のトランスフォーマー層にまたがるアダプタ固有のSAEをトレーニングし,学習した特徴空間と事前訓練されたSAE辞書を比較した。
我々は、デコーダ方向のコサイン類似性、特徴部分空間の主角解析、アクティベーション表現間のセンターカーネルアライメント(CKA)を用いて、表現アライメントを評価する。
層と階数にまたがって,LoRAによる特徴辞書と事前学習したSAE特徴との間の比較的弱い幾何学的アライメントを一貫して観察する。
適応特異的なSAEは、事前訓練されたSAEよりも効果的にデルタ活性化を再構築し、LoRA更新が残留ストリーム内の部分的に異なる表現構造を占めることを示唆している。
さらに、特徴密度は階数と深さによって増加するが、幾何学的発散は階数全体で比較的安定である。
これらの結果から,LoRAファインチューニングは,機械的解釈可能性,適応分析,微調整言語モデルの安全性監査など,事前学習された解釈可能性辞書によって完全に捉えられていない特徴構造を誘導することができるという実証的証拠が得られた。
関連論文リスト
- A Mechanistic Investigation of Supervised Fine Tuning [0.0]
Supervised Fine-Tuning (SFT) は、モデルのアクティベーション・ジオメトリをほとんど乱さないままにしている。
ベースモデル上で事前訓練されたスパースオートエンコーダを通じて、両方のアクティベーションセットを投影すると、基礎となるスパースラテントが著しく分散することが明らかになった。
論文 参考訳(メタデータ) (2026-05-12T02:22:48Z) - ShapLoRA: Allocation of Low-rank Adaption on Large Language Models via Shapley Value Inspired Importance Estimation [6.503102865159402]
低ランク適応(LoRA)はパラメータ効率微調整(PEFT)の分野における代表的手法である
近年の文献では、LLMバックボーンのランクを適切に割り当てると性能が向上することがわかった。
提案するShapLoRAフレームワークは,説明可能な属性尺度であるShapley Valueにヒントを得たものだ。
論文 参考訳(メタデータ) (2026-01-25T17:52:13Z) - Behind the Scenes: Mechanistic Interpretability of LoRA-adapted Whisper for Speech Emotion Recognition [5.343939245180883]
Low-Rank Adaptation (LoRA) はパラメータ効率の高い微調整法として人気がある。
音声感情認識のためのWhisperエンコーダにおけるLoRAの体系的機械論的解釈可能性の研究を行った。
以上の結果から,LoRAがエンコーダの階層性を再評価し,経験的洞察と深い機械的理解の両立を図った。
論文 参考訳(メタデータ) (2025-09-10T09:54:27Z) - SSVD: Structured SVD for Parameter-Efficient Fine-Tuning and Benchmarking under Domain Shift in ASR [65.90944188787786]
ローランク適応(LoRA)は、音声アプリケーションで広く使われているが、VeRA、DoRA、PiSSA、SVFTといった最先端の変種は、主に言語や視覚タスクのために開発されており、音声による検証は限られている。
本研究は,これらのPEFTメソッドをESPnet内での総合的な統合とベンチマークを行う。
本研究では、0.1Bから2Bまでのモデルスケールで、幼児の発話や方言の変化を含むドメインシフト音声認識タスクに関するすべての手法を評価する。
論文 参考訳(メタデータ) (2025-09-02T20:51:17Z) - Sparsification and Reconstruction from the Perspective of Representation Geometry [10.834177456685538]
スパースオートエンコーダ (SAE) は機械的解釈可能性において主要なツールである。
本研究は,表現幾何学の観点から,空間の原理を説明する。
具体的には、表現を理解し、表現の制約を取り入れることの必要性を強調している。
論文 参考訳(メタデータ) (2025-05-28T15:54:33Z) - Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [52.3707788779464]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。
ARC-JSDは、追加の微調整、勾配計算、サロゲートモデリングなしで、重要な文脈文の効率的かつ正確な識別を可能にする。
TyDi QA, Hotpot QA, Musique など,様々なスケールの命令調整 LLM を用いたRAG ベンチマークの評価により,精度が向上し,計算効率が向上した。
論文 参考訳(メタデータ) (2025-05-22T09:04:03Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - LoRA vs Full Fine-tuning: An Illusion of Equivalence [73.5303340531806]
我々は,Low-Rank Adaptation (LoRA) とフルファインタニングによる事前学習モデルについて検討する。
特異値分解が全く異なる構造を示すLoRAおよび完全微調整収量行列が得られた。
我々は、LoRAが完全な微調整を忘れてはならないという発見を拡張し、その忘れ物は侵入者次元に大きく局所化されていることを発見した。
論文 参考訳(メタデータ) (2024-10-28T17:14:01Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。