論文の概要: Sparse but Wrong: Incorrect L0 Leads to Incorrect Features in Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2508.16560v1
- Date: Fri, 22 Aug 2025 17:26:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.475738
- Title: Sparse but Wrong: Incorrect L0 Leads to Incorrect Features in Sparse Autoencoders
- Title(参考訳): Sparse but Wrong: スパースオートエンコーダの誤ったL0が不正確な特徴に導く
- Authors: David Chanin, Adrià Garriga-Alonso,
- Abstract要約: スパースオートエンコーダ(SAE)は、単一概念に対応することを意図したLCM内部のアクティベーションから特徴を抽出する。
既存の作業では、スパーシティ・リコンストラクション・トレードオフプロットを用いたSAEアルゴリズムを比較し、L0は単一の正しい値を持たない自由パラメータであることを示す。
本研究では, L0 が BatchTopK SAE に与える影響について検討し, L0 が正確に設定されていない場合, SAE は LLM の基本的な特徴を学習できないことを示す。
- 参考スコア(独自算出の注目度): 7.429838797007225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) extract features from LLM internal activations, meant to correspond to single concepts. A core SAE training hyperparameter is L0: how many features should fire per token on average. Existing work compares SAE algorithms using sparsity--reconstruction tradeoff plots, implying L0 is a free parameter with no single correct value. In this work we study the effect of L0 on BatchTopK SAEs, and show that if L0 is not set precisely, the SAE fails to learn the underlying features of the LLM. If L0 is too low, the SAE will mix correlated features to improve reconstruction. If L0 is too high, the SAE finds degenerate solutions that also mix features. Further, we demonstrate a method to determine the correct L0 value for an SAE on a given training distribution, which finds the true L0 in toy models and coincides with peak sparse probing performance in LLMs. We find that most commonly used SAEs have an L0 that is too low. Our work shows that, to train SAEs with correct features, practitioners must set L0 correctly.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、単一概念に対応することを意図したLCM内部のアクティベーションから特徴を抽出する。
SAEトレーニングのコアとなるハイパーパラメータはL0である。
既存の作業では、スパーシティ・リコンストラクション・トレードオフプロットを用いたSAEアルゴリズムを比較し、L0は単一の正しい値を持たない自由パラメータであることを示す。
本研究では, L0 が BatchTopK SAE に与える影響について検討し, L0 が正確に設定されていない場合, SAE は LLM の基本的な特徴を学習できないことを示す。
L0が低すぎると、SAEは関連した特徴を混合して再構築を改善する。
L0 が高すぎると、SAE は特徴を混合する退化解を見つける。
さらに、与えられたトレーニング分布に基づいてSAEの正しいL0値を決定する方法を示し、おもちゃのモデルで真のL0を見つけ、LLMのピークスパース探索性能と一致させる。
一般的に使われているSAEのL0は低すぎる。
我々の研究によると、SAEを正しい特徴で訓練するには、実践者はL0を正しく設定する必要がある。
関連論文リスト
- Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders [1.0582505915332336]
スパースオートエンコーダ(SAE)は多意味的な活性化を解釈可能な線形方向へ分解する。
SAEがトレーニング対象の「真の特徴」の数よりも狭く、特徴の間に相関関係がある場合、SAEは関連する特徴のコンポーネントをマージする。
特徴ヘッジ(feature hedging)と呼ばれるこの現象は、SAE再建損失によって引き起こされ、SAEがより狭くなるほど深刻である。
論文 参考訳(メタデータ) (2025-05-16T23:30:17Z) - Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders [4.4110204540437365]
本研究では, Gemma 2 9Bアクティベーションにおいて, 所定の空間レベルにおいて, 最先端の再現忠実性を実現するJumpReLU SAEを紹介する。
この改善は、手動および自動解釈可能性研究による解釈可能性のコストを伴わないことを示す。
論文 参考訳(メタデータ) (2024-07-19T16:07:19Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - Over-Reasoning and Redundant Calculation of Large Language Models [63.90357081534995]
大規模言語モデル(LLM)は、問題を段階的に解決することができる。
本稿では,手作業で構築した数学QAデータセットGSM8K-Zeroを用いて,LLMが冗長な計算と推論を生成する傾向があることを示す。
論文 参考訳(メタデータ) (2024-01-21T11:42:18Z) - L0Learn: A Scalable Package for Sparse Learning using L0 Regularization [6.037383467521294]
L0Learnはスパース線形回帰分類のためのオープンソースパッケージである。
座標降下と局所最適化に基づいて、スケーラブルで近似的なアルゴリズムを実装している。
論文 参考訳(メタデータ) (2022-02-10T03:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。