論文の概要: How Pruning Reshapes Features: Sparse Autoencoder Analysis of Weight-Pruned Language Models
- arxiv url: http://arxiv.org/abs/2603.25325v1
- Date: Thu, 26 Mar 2026 11:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.258299
- Title: How Pruning Reshapes Features: Sparse Autoencoder Analysis of Weight-Pruned Language Models
- Title(参考訳): Pruning Reshaps:Sparse Autoencoder Analysis of Weight-Pruned Language Models
- Authors: Hector Borobia, Elies Seguí-Mas, Guillermina Tormo-Carbó,
- Abstract要約: 本稿では,非構造化プルーニングが言語モデルの特徴幾何にどう影響するかについて,最初の体系的研究を行う。
種子の安定性,特徴生存性,SAE伝達性,特徴脆弱性,因果関係に関する5つの研究課題について検討した。
我々の最も顕著な発見は、希少なSAE機能 ― 発射率の低い ― が、頻繁なプルーニングよりもはるかに優れていることです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight pruning is a standard technique for compressing large language models, yet its effect on learned internal representations remains poorly understood. We present the first systematic study of how unstructured pruning reshapes the feature geometry of language models, using Sparse Autoencoders (SAEs) as interpretability probes. Across three model families (Gemma 3 1B, Gemma 2 2B, Llama 3.2 1B), two pruning methods (magnitude and Wanda), and six sparsity levels (0--60%), we investigate five research questions spanning seed stability, feature survival, SAE transferability, feature fragility, and causal relevance. Our most striking finding is that rare SAE features--those with low firing rates--survive pruning far better than frequent ones, with within-condition Spearman correlations of rho = -1.0 in 11 of 17 experimental conditions. This counter-intuitive result suggests that pruning acts as implicit feature selection, preferentially destroying high-frequency generic features while preserving specialized rare ones. We further show that Wanda pruning preserves feature structure up to 3.7x better than magnitude pruning, that pre-trained SAEs remain viable on Wanda-pruned models up to 50% sparsity, and that geometric feature survival does not predict causal importance--a dissociation with implications for interpretability under compression.
- Abstract(参考訳): ウェイトプルーニングは大きな言語モデルを圧縮する標準的な手法であるが、学習した内部表現に対する影響はよく分かっていない。
本研究では,非構造化プルーニングが言語モデルの特徴幾何にどう影響するかを,解釈可能性プローブとしてスパースオートエンコーダ(SAE)を用いて検討した。
3つのモデルファミリー(Gemma 3 1B, Gemma 2 2B, Llama 3.2 1B), 2つのプルーニング方法(マグニチュードとワンダ)と6つのスペーサリティレベル(0-60%)について, 種子の安定性, SAE輸送性, 特徴脆弱性, 因果関係性に関する5つの研究課題について検討した。最も注目すべき発見は, 希少なSAEの特徴---------------------------------------------------------------------------------------------------- ---------------------------------------------------------------------------------------------------- ---------------------------------------------------------------------------------------------------- -----------------
この反直感的な結果は、プルーニングが暗黙的な特徴選択として機能し、特殊な稀な特徴を保ちながら、高頻度の一般的な特徴を優先的に破壊することを示している。
さらに,Wanda プルーニングは,最大3.7倍の精度で特徴構造を保ち,事前学習されたSAEは,Wanda プルーニングモデル上で最大50%の間隔で有効であり,幾何的特徴生存は因果的重要性を予測せず,圧縮下での解釈可能性に影響を及ぼす解離であることを示す。
関連論文リスト
- Fundamental Limits of Neural Network Sparsification: Evidence from Catastrophic Interpretability Collapse [7.167095059974211]
本研究では, 可変オートエンコーダ-スパースオートエンコーダアーキテクチャにおける重大容量制約下での機能生存について検討する。
本稿では,活動ニューロンを500から50以上の訓練エポックに段階的に減少させる適応的空間性スケジューリングフレームワークを提案する。
グローバルな表現の質は安定しているが、局所的な特徴解釈可能性は体系的に崩壊する。
論文 参考訳(メタデータ) (2026-03-18T00:16:38Z) - Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines? [10.871959954490217]
スパースオートエンコーダ(SAE)は、アクティベーションをスパースセットの人間解釈可能な特徴に分解することで、ニューラルネットワークを解釈するための有望なツールとして登場した。
最近の研究は複数のSAE変異体を導入し、フロンティアモデルへの拡張に成功した。
多くの興奮にもかかわらず、下流タスクにおけるネガティブな結果の増加は、SAEが有意義な特徴を回復するかどうかに疑問を投げかけている。
論文 参考訳(メタデータ) (2026-02-15T11:53:55Z) - Sparse Semantic Dimension as a Generalization Certificate for LLMs [53.681678236115836]
Sparse Semantic Dimension (SSD)は,モデル層上で訓練されたSparse Autoencoder (SAE)のアクティブな特徴語彙から導かれる複雑性尺度である。
我々はGPT-2 Small と Gemma-2B でこの枠組みを検証し、実際のサンプルサイズで非空き証明書を提供することを実証した。
論文 参考訳(メタデータ) (2026-02-11T21:45:18Z) - PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding [16.10987386200554]
我々は,SAEデコーダを高次項で拡張して特徴的相互作用をモデル化するPolySAEを紹介する。
4つの言語モデルと3つのSAE変種に対して、PolySAEはF1の探索において平均8%の改善を達成した。
論文 参考訳(メタデータ) (2026-02-01T16:34:45Z) - A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training [86.64715217940274]
外接線は正規化と共に機能する。
アウトリーチは、コントリビュータではなく、再スケール要因として役立ちます。
外乱は学習可能なパラメータに吸収されるか、明示的なゲート再スケーリングによって緩和される。
論文 参考訳(メタデータ) (2026-01-30T13:29:45Z) - Does higher interpretability imply better utility? A Pairwise Analysis on Sparse Autoencoders [63.544453925182005]
3つの言語モデルで90のSAEをトレーニングし、解釈可能性と操舵性を評価します。
解析の結果,比較的弱い正の相関(tau b approx 0.298)しか示さず,解釈性は操舵性能の指標として不十分であることが示唆された。
本稿では,特徴量の増幅が次のトークン分布に与える影響を計測するデルタトークン信頼性(Delta Token Confidence)という新しい選択基準を提案する。
論文 参考訳(メタデータ) (2025-10-04T04:14:50Z) - NIRVANA: Structured pruning reimagined for large language models compression [50.651730342011014]
直近のゼロショット保存精度と頑健な微調整のバランスをとるために, NIRVANAを導入した。
構造化プルーニングによって引き起こされる固有の課題にさらに対処するため、NIRVANAは層やモジュール間の適応的な空間割当機構を取り入れている。
Llama3, Qwen, T5モデルで行った実験では、NIRVANAは等価な空間制約の下で既存の構造化プルーニング法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-17T17:59:00Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Sparse Autoencoders Trained on the Same Data Learn Different Features [0.7234862895932991]
スパースオートエンコーダ(SAE)は、大きな言語モデルで人間の解釈可能な特徴を明らかにするのに有用なツールである。
我々の研究は、SAEが同じモデルとデータに基づいて訓練したことを示しています。
論文 参考訳(メタデータ) (2025-01-28T01:24:16Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。