論文の概要: On the transferability of Sparse Autoencoders for interpreting compressed models
- arxiv url: http://arxiv.org/abs/2507.15977v1
- Date: Mon, 21 Jul 2025 18:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.836474
- Title: On the transferability of Sparse Autoencoders for interpreting compressed models
- Title(参考訳): 圧縮モデル解釈のためのスパースオートエンコーダの転送性について
- Authors: Suchit Gupte, Vishnu Kabir Chhabra, Mohammad Mahdi Khalili,
- Abstract要約: 原モデルと圧縮モデルにおけるスパースオートエンコーダ(SAE)の違いについて検討する。
原モデル上で訓練されたSAEは,圧縮モデル上で訓練されたSAEと比較して,わずかな性能劣化で圧縮モデルを解釈できることがわかった。
- 参考スコア(独自算出の注目度): 6.882042556551613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern LLMs face inference efficiency challenges due to their scale. To address this, many compression methods have been proposed, such as pruning and quantization. However, the effect of compression on a model's interpretability remains elusive. While several model interpretation approaches exist, such as circuit discovery, Sparse Autoencoders (SAEs) have proven particularly effective in decomposing a model's activation space into its feature basis. In this work, we explore the differences in SAEs for the original and compressed models. We find that SAEs trained on the original model can interpret the compressed model albeit with slight performance degradation compared to the trained SAE on the compressed model. Furthermore, simply pruning the original SAE itself achieves performance comparable to training a new SAE on the pruned model. This finding enables us to mitigate the extensive training costs of SAEs.
- Abstract(参考訳): 現代のLLMは、そのスケールのために推論効率の課題に直面している。
これを解決するために、プルーニングや量子化など、多くの圧縮手法が提案されている。
しかし、モデルの解釈可能性に対する圧縮の影響はいまだ解明されていない。
サーキット発見などいくつかのモデル解釈アプローチが存在するが、スパースオートエンコーダ(SAE)はモデルのアクティベーション空間を特徴ベースに分解するのに特に有効であることが証明されている。
本研究では,原モデルと圧縮モデルにおけるSAEの違いについて検討する。
原モデル上で訓練されたSAEは,圧縮モデル上で訓練されたSAEと比較して若干の性能劣化があるにもかかわらず,圧縮されたモデルを解釈できることがわかった。
さらに、オリジナルのSAE自体をプルーニングするだけで、プルーニングモデルで新しいSAEをトレーニングするのに匹敵するパフォーマンスが得られる。
この発見により、SAEの広範なトレーニングコストを軽減できます。
関連論文リスト
- Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Transferring Features Across Language Models With Model Stitching [61.24716360332365]
言語モデルの残差ストリーム間のアフィンマッピングは、モデル間で表現された特徴を転送するための安価な方法であることを示す。
小型モデルと大規模モデルは同様の表現空間を学習し、より小さなモデルでSAEなどの高価なコンポーネントをトレーニングし、FLOPの貯蓄でより大きなモデルに転送する動機付けをする。
論文 参考訳(メタデータ) (2025-06-07T01:03:25Z) - Unified Scaling Laws for Compressed Representations [69.72517034565467]
各種圧縮表現上でのトレーニングにおいて,統合スケーリングフレームワークがモデル性能を正確に予測できるかどうかを検討する。
我々の主な発見は、単純な「容量」計量が存在するという理論と経験の両方を実証することである。
我々は、圧縮されたフォーマットの精度を直接比較し、スパース量子化されたフォーマットのトレーニングのためのより良いアルゴリズムを導出するために、定式化を拡張した。
論文 参考訳(メタデータ) (2025-06-02T16:52:51Z) - Ensembling Sparse Autoencoders [10.81463830315253]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。
我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。
実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T23:31:21Z) - Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning [54.584665518334035]
注意と状態空間モデル(SSM)を組み合わせたハイブリッドアーキテクチャは、最先端の精度と実行時のパフォーマンスを達成する。
近年の研究では、アテンションのみのモデルに圧縮と蒸留を適用することで、トレーニングコストのごく一部でより小さく、より正確なモデルが得られることが示されている。
本稿では,SSMブロックの構造的整合性とそのシーケンスモデリング機能を維持するグループ対応プルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-15T17:26:29Z) - Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - SlimSAM: 0.1% Data Makes Segment Anything Slim [52.96232442322824]
本稿では,新しいデータ効率のSAM圧縮手法であるSlimSAMを紹介する。
SlimSAMは、非常に少ないトレーニングデータで優れたパフォーマンスを達成する。
コードはhttp://github.com/czg1225/SlimSAMで入手できる。
論文 参考訳(メタデータ) (2023-12-08T12:48:53Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Just CHOP: Embarrassingly Simple LLM Compression [27.64461490974072]
LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。
拡張言語モデル事前学習と組み合わせた単純なレイヤプルーニングは、7Bスケールでモデルの構造的および半構造化された圧縮に対して最先端の結果をもたらすことを示す。
また,より小さなBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純な刈り取り技術に対して非効率になることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:18:35Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。