論文の概要: Sparse but Wrong: Incorrect L0 Leads to Incorrect Features in Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2508.16560v1
- Date: Fri, 22 Aug 2025 17:26:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.475738
- Title: Sparse but Wrong: Incorrect L0 Leads to Incorrect Features in Sparse Autoencoders
- Title(参考訳): Sparse but Wrong: スパースオートエンコーダの誤ったL0が不正確な特徴に導く
- Authors: David Chanin, Adrià Garriga-Alonso,
- Abstract要約: スパースオートエンコーダ(SAE)は、単一概念に対応することを意図したLCM内部のアクティベーションから特徴を抽出する。
既存の作業では、スパーシティ・リコンストラクション・トレードオフプロットを用いたSAEアルゴリズムを比較し、L0は単一の正しい値を持たない自由パラメータであることを示す。
本研究では, L0 が BatchTopK SAE に与える影響について検討し, L0 が正確に設定されていない場合, SAE は LLM の基本的な特徴を学習できないことを示す。
- 参考スコア(独自算出の注目度): 7.429838797007225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) extract features from LLM internal activations, meant to correspond to single concepts. A core SAE training hyperparameter is L0: how many features should fire per token on average. Existing work compares SAE algorithms using sparsity--reconstruction tradeoff plots, implying L0 is a free parameter with no single correct value. In this work we study the effect of L0 on BatchTopK SAEs, and show that if L0 is not set precisely, the SAE fails to learn the underlying features of the LLM. If L0 is too low, the SAE will mix correlated features to improve reconstruction. If L0 is too high, the SAE finds degenerate solutions that also mix features. Further, we demonstrate a method to determine the correct L0 value for an SAE on a given training distribution, which finds the true L0 in toy models and coincides with peak sparse probing performance in LLMs. We find that most commonly used SAEs have an L0 that is too low. Our work shows that, to train SAEs with correct features, practitioners must set L0 correctly.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、単一概念に対応することを意図したLCM内部のアクティベーションから特徴を抽出する。
SAEトレーニングのコアとなるハイパーパラメータはL0である。
既存の作業では、スパーシティ・リコンストラクション・トレードオフプロットを用いたSAEアルゴリズムを比較し、L0は単一の正しい値を持たない自由パラメータであることを示す。
本研究では, L0 が BatchTopK SAE に与える影響について検討し, L0 が正確に設定されていない場合, SAE は LLM の基本的な特徴を学習できないことを示す。
L0が低すぎると、SAEは関連した特徴を混合して再構築を改善する。
L0 が高すぎると、SAE は特徴を混合する退化解を見つける。
さらに、与えられたトレーニング分布に基づいてSAEの正しいL0値を決定する方法を示し、おもちゃのモデルで真のL0を見つけ、LLMのピークスパース探索性能と一致させる。
一般的に使われているSAEのL0は低すぎる。
我々の研究によると、SAEを正しい特徴で訓練するには、実践者はL0を正しく設定する必要がある。
関連論文リスト
- Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines? [10.871959954490217]
スパースオートエンコーダ(SAE)は、アクティベーションをスパースセットの人間解釈可能な特徴に分解することで、ニューラルネットワークを解釈するための有望なツールとして登場した。
最近の研究は複数のSAE変異体を導入し、フロンティアモデルへの拡張に成功した。
多くの興奮にもかかわらず、下流タスクにおけるネガティブな結果の増加は、SAEが有意義な特徴を回復するかどうかに疑問を投げかけている。
論文 参考訳(メタデータ) (2026-02-15T11:53:55Z) - Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders [1.0582505915332336]
スパースオートエンコーダ(SAE)は多意味的な活性化を解釈可能な線形方向へ分解する。
SAEがトレーニング対象の「真の特徴」の数よりも狭く、特徴の間に相関関係がある場合、SAEは関連する特徴のコンポーネントをマージする。
特徴ヘッジ(feature hedging)と呼ばれるこの現象は、SAE再建損失によって引き起こされ、SAEがより狭くなるほど深刻である。
論文 参考訳(メタデータ) (2025-05-16T23:30:17Z) - Jacobian Sparse Autoencoders: Sparsify Computations, Not Just Activations [21.142967037533175]
本稿では,与えられたモデル成分の入力と出力のアクティベーションに空間性を生じるジャコビアンSAEと,それらを接続する計算(形式的にはジャコビアン)に空間性をもたらすヤコビアンSAEを提案する。
JSAEは,従来のSAEと同様,下流LLM性能を保ちながら,比較的広い範囲の計算空間を抽出することがわかった。
このことは、計算グラフの空間性が、LLMがトレーニングを通じて学習する特性であることを示すとともに、JSAEが標準のSAEよりも学習されたトランスフォーマー計算を理解するのに適していることを示唆している。
論文 参考訳(メタデータ) (2025-02-25T12:21:45Z) - Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - Low-Rank Adapting Models for Sparse Autoencoders [6.932760557251821]
我々は低ランク適応(LoRA)を用いて、以前に訓練されたSAEの周辺でテキストモデル自体を微調整する。
本手法は, 前方通過時にSAEを挿入した場合, クロスエントロピー損失ギャップを30%から55%削減する。
論文 参考訳(メタデータ) (2025-01-31T18:59:16Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders [4.4110204540437365]
本研究では, Gemma 2 9Bアクティベーションにおいて, 所定の空間レベルにおいて, 最先端の再現忠実性を実現するJumpReLU SAEを紹介する。
この改善は、手動および自動解釈可能性研究による解釈可能性のコストを伴わないことを示す。
論文 参考訳(メタデータ) (2024-07-19T16:07:19Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - Over-Reasoning and Redundant Calculation of Large Language Models [63.90357081534995]
大規模言語モデル(LLM)は、問題を段階的に解決することができる。
本稿では,手作業で構築した数学QAデータセットGSM8K-Zeroを用いて,LLMが冗長な計算と推論を生成する傾向があることを示す。
論文 参考訳(メタデータ) (2024-01-21T11:42:18Z) - L0Learn: A Scalable Package for Sparse Learning using L0 Regularization [6.037383467521294]
L0Learnはスパース線形回帰分類のためのオープンソースパッケージである。
座標降下と局所最適化に基づいて、スケーラブルで近似的なアルゴリズムを実装している。
論文 参考訳(メタデータ) (2022-02-10T03:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。