論文の概要: Sparse but Wrong: Incorrect L0 Leads to Incorrect Features in Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2508.16560v2
- Date: Fri, 26 Sep 2025 09:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.597697
- Title: Sparse but Wrong: Incorrect L0 Leads to Incorrect Features in Sparse Autoencoders
- Title(参考訳): Sparse but Wrong: スパースオートエンコーダの誤ったL0が不正確な特徴に導く
- Authors: David Chanin, Adrià Garriga-Alonso,
- Abstract要約: 本研究では, L0 が SAE に与える影響について検討し, L0 が正しく設定されていない場合, SAE は LLM の基本的な特徴を乱すことができないことを示す。
本稿では,SAE に対する適切な L0 探索を,与えられたトレーニング分布上で導くためのプロキシ指標を提案する。
- 参考スコア(独自算出の注目度): 7.429838797007225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) extract features from LLM internal activations, meant to correspond to interpretable concepts. A core SAE training hyperparameter is L0: how many SAE features should fire per token on average. Existing work compares SAE algorithms using sparsity-reconstruction tradeoff plots, implying L0 is a free parameter with no single correct value aside from its effect on reconstruction. In this work we study the effect of L0 on SAEs, and show that if L0 is not set correctly, the SAE fails to disentangle the underlying features of the LLM. If L0 is too low, the SAE will mix correlated features to improve reconstruction. If L0 is too high, the SAE finds degenerate solutions that also mix features. Further, we present a proxy metric that can help guide the search for the correct L0 for an SAE on a given training distribution. We show that our method finds the correct L0 in toy models and coincides with peak sparse probing performance in LLM SAEs. We find that most commonly used SAEs have an L0 that is too low. Our work shows that L0 must be set correctly to train SAEs with correct features.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、解釈可能な概念に対応することを意図したLCMの内部アクティベーションから特徴を抽出する。
コアのSAEトレーニングハイパーパラメータはL0である。
既存の研究は、スパーシリティ・リコンストラクション・トレードオフプロットを用いたSAEアルゴリズムを比較し、L0は、再構成に対する効果を除いて、単一の正しい値を持たない自由パラメータであることを示している。
本研究では, L0 が SAE に与える影響について検討し, L0 が正しく設定されていない場合, SAE は LLM の基本的な特徴を乱すことができないことを示す。
L0が低すぎると、SAEは関連した特徴を混合して再構築を改善する。
L0 が高すぎると、SAE は特徴を混合する退化解を見つける。
さらに、与えられたトレーニング分布上のSAEに対する正しいL0の探索をガイドするのに役立つプロキシ指標を提案する。
提案手法はおもちゃのモデルで正しいL0を求め, LLM SAEのピークスパース探索性能と一致することを示す。
一般的に使われているSAEのL0は低すぎる。
我々の研究によると、L0は正しい特徴を持つSAEを訓練するために正しく設定されなければならない。
関連論文リスト
- Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines? [10.871959954490217]
スパースオートエンコーダ(SAE)は、アクティベーションをスパースセットの人間解釈可能な特徴に分解することで、ニューラルネットワークを解釈するための有望なツールとして登場した。
最近の研究は複数のSAE変異体を導入し、フロンティアモデルへの拡張に成功した。
多くの興奮にもかかわらず、下流タスクにおけるネガティブな結果の増加は、SAEが有意義な特徴を回復するかどうかに疑問を投げかけている。
論文 参考訳(メタデータ) (2026-02-15T11:53:55Z) - Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders [1.0582505915332336]
スパースオートエンコーダ(SAE)は多意味的な活性化を解釈可能な線形方向へ分解する。
SAEがトレーニング対象の「真の特徴」の数よりも狭く、特徴の間に相関関係がある場合、SAEは関連する特徴のコンポーネントをマージする。
特徴ヘッジ(feature hedging)と呼ばれるこの現象は、SAE再建損失によって引き起こされ、SAEがより狭くなるほど深刻である。
論文 参考訳(メタデータ) (2025-05-16T23:30:17Z) - Jacobian Sparse Autoencoders: Sparsify Computations, Not Just Activations [21.142967037533175]
本稿では,与えられたモデル成分の入力と出力のアクティベーションに空間性を生じるジャコビアンSAEと,それらを接続する計算(形式的にはジャコビアン)に空間性をもたらすヤコビアンSAEを提案する。
JSAEは,従来のSAEと同様,下流LLM性能を保ちながら,比較的広い範囲の計算空間を抽出することがわかった。
このことは、計算グラフの空間性が、LLMがトレーニングを通じて学習する特性であることを示すとともに、JSAEが標準のSAEよりも学習されたトランスフォーマー計算を理解するのに適していることを示唆している。
論文 参考訳(メタデータ) (2025-02-25T12:21:45Z) - Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - Low-Rank Adapting Models for Sparse Autoencoders [6.932760557251821]
我々は低ランク適応(LoRA)を用いて、以前に訓練されたSAEの周辺でテキストモデル自体を微調整する。
本手法は, 前方通過時にSAEを挿入した場合, クロスエントロピー損失ギャップを30%から55%削減する。
論文 参考訳(メタデータ) (2025-01-31T18:59:16Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders [4.4110204540437365]
本研究では, Gemma 2 9Bアクティベーションにおいて, 所定の空間レベルにおいて, 最先端の再現忠実性を実現するJumpReLU SAEを紹介する。
この改善は、手動および自動解釈可能性研究による解釈可能性のコストを伴わないことを示す。
論文 参考訳(メタデータ) (2024-07-19T16:07:19Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - Over-Reasoning and Redundant Calculation of Large Language Models [63.90357081534995]
大規模言語モデル(LLM)は、問題を段階的に解決することができる。
本稿では,手作業で構築した数学QAデータセットGSM8K-Zeroを用いて,LLMが冗長な計算と推論を生成する傾向があることを示す。
論文 参考訳(メタデータ) (2024-01-21T11:42:18Z) - L0Learn: A Scalable Package for Sparse Learning using L0 Regularization [6.037383467521294]
L0Learnはスパース線形回帰分類のためのオープンソースパッケージである。
座標降下と局所最適化に基づいて、スケーラブルで近似的なアルゴリズムを実装している。
論文 参考訳(メタデータ) (2022-02-10T03:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。