論文の概要: Sparse but Wrong: Incorrect L0 Leads to Incorrect Features in Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2508.16560v2
- Date: Fri, 26 Sep 2025 09:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.597697
- Title: Sparse but Wrong: Incorrect L0 Leads to Incorrect Features in Sparse Autoencoders
- Title(参考訳): Sparse but Wrong: スパースオートエンコーダの誤ったL0が不正確な特徴に導く
- Authors: David Chanin, Adrià Garriga-Alonso,
- Abstract要約: 本研究では, L0 が SAE に与える影響について検討し, L0 が正しく設定されていない場合, SAE は LLM の基本的な特徴を乱すことができないことを示す。
本稿では,SAE に対する適切な L0 探索を,与えられたトレーニング分布上で導くためのプロキシ指標を提案する。
- 参考スコア(独自算出の注目度): 7.429838797007225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) extract features from LLM internal activations, meant to correspond to interpretable concepts. A core SAE training hyperparameter is L0: how many SAE features should fire per token on average. Existing work compares SAE algorithms using sparsity-reconstruction tradeoff plots, implying L0 is a free parameter with no single correct value aside from its effect on reconstruction. In this work we study the effect of L0 on SAEs, and show that if L0 is not set correctly, the SAE fails to disentangle the underlying features of the LLM. If L0 is too low, the SAE will mix correlated features to improve reconstruction. If L0 is too high, the SAE finds degenerate solutions that also mix features. Further, we present a proxy metric that can help guide the search for the correct L0 for an SAE on a given training distribution. We show that our method finds the correct L0 in toy models and coincides with peak sparse probing performance in LLM SAEs. We find that most commonly used SAEs have an L0 that is too low. Our work shows that L0 must be set correctly to train SAEs with correct features.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、解釈可能な概念に対応することを意図したLCMの内部アクティベーションから特徴を抽出する。
コアのSAEトレーニングハイパーパラメータはL0である。
既存の研究は、スパーシリティ・リコンストラクション・トレードオフプロットを用いたSAEアルゴリズムを比較し、L0は、再構成に対する効果を除いて、単一の正しい値を持たない自由パラメータであることを示している。
本研究では, L0 が SAE に与える影響について検討し, L0 が正しく設定されていない場合, SAE は LLM の基本的な特徴を乱すことができないことを示す。
L0が低すぎると、SAEは関連した特徴を混合して再構築を改善する。
L0 が高すぎると、SAE は特徴を混合する退化解を見つける。
さらに、与えられたトレーニング分布上のSAEに対する正しいL0の探索をガイドするのに役立つプロキシ指標を提案する。
提案手法はおもちゃのモデルで正しいL0を求め, LLM SAEのピークスパース探索性能と一致することを示す。
一般的に使われているSAEのL0は低すぎる。
我々の研究によると、L0は正しい特徴を持つSAEを訓練するために正しく設定されなければならない。
関連論文リスト
- Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders [1.0582505915332336]
スパースオートエンコーダ(SAE)は多意味的な活性化を解釈可能な線形方向へ分解する。
SAEがトレーニング対象の「真の特徴」の数よりも狭く、特徴の間に相関関係がある場合、SAEは関連する特徴のコンポーネントをマージする。
特徴ヘッジ(feature hedging)と呼ばれるこの現象は、SAE再建損失によって引き起こされ、SAEがより狭くなるほど深刻である。
論文 参考訳(メタデータ) (2025-05-16T23:30:17Z) - Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders [4.4110204540437365]
本研究では, Gemma 2 9Bアクティベーションにおいて, 所定の空間レベルにおいて, 最先端の再現忠実性を実現するJumpReLU SAEを紹介する。
この改善は、手動および自動解釈可能性研究による解釈可能性のコストを伴わないことを示す。
論文 参考訳(メタデータ) (2024-07-19T16:07:19Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - Over-Reasoning and Redundant Calculation of Large Language Models [63.90357081534995]
大規模言語モデル(LLM)は、問題を段階的に解決することができる。
本稿では,手作業で構築した数学QAデータセットGSM8K-Zeroを用いて,LLMが冗長な計算と推論を生成する傾向があることを示す。
論文 参考訳(メタデータ) (2024-01-21T11:42:18Z) - L0Learn: A Scalable Package for Sparse Learning using L0 Regularization [6.037383467521294]
L0Learnはスパース線形回帰分類のためのオープンソースパッケージである。
座標降下と局所最適化に基づいて、スケーラブルで近似的なアルゴリズムを実装している。
論文 参考訳(メタデータ) (2022-02-10T03:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。