論文の概要: SCALAR: Benchmarking SAE Interaction Sparsity in Toy LLMs
- arxiv url: http://arxiv.org/abs/2511.07572v1
- Date: Wed, 12 Nov 2025 01:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.387642
- Title: SCALAR: Benchmarking SAE Interaction Sparsity in Toy LLMs
- Title(参考訳): SCALAR: トイLLMにおけるSAEインタラクションスパリティのベンチマーク
- Authors: Sean P. Fillingham, Andrew Gordon, Peter Lai, Xavier Poncini, David Quarel, Stefan Heimersheim,
- Abstract要約: SAE特徴間の相互作用の空間性を測定するベンチマークであるSCALARを紹介する。
我々は、TopK SAEs、Jacobian SAEs(JSAEs)、Staircase SAEsを比較した。
我々の研究は、ベンチマークや有望なアーキテクチャの比較を通じて、SAEにおける相互作用の疎結合の重要性を強調します。
- 参考スコア(独自算出の注目度): 0.9121032932730987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mechanistic interpretability aims to decompose neural networks into interpretable features and map their connecting circuits. The standard approach trains sparse autoencoders (SAEs) on each layer's activations. However, SAEs trained in isolation don't encourage sparse cross-layer connections, inflating extracted circuits where upstream features needlessly affect multiple downstream features. Current evaluations focus on individual SAE performance, leaving interaction sparsity unexamined. We introduce SCALAR (Sparse Connectivity Assessment of Latent Activation Relationships), a benchmark measuring interaction sparsity between SAE features. We also propose "Staircase SAEs", using weight-sharing to limit upstream feature duplication across downstream features. Using SCALAR, we compare TopK SAEs, Jacobian SAEs (JSAEs), and Staircase SAEs. Staircase SAEs improve relative sparsity over TopK SAEs by $59.67\% \pm 1.83\%$ (feedforward) and $63.15\% \pm 1.35\%$ (transformer blocks). JSAEs provide $8.54\% \pm 0.38\%$ improvement over TopK for feedforward layers but cannot train effectively across transformer blocks, unlike Staircase and TopK SAEs which work anywhere in the residual stream. We validate on a $216$K-parameter toy model and GPT-$2$ Small ($124$M), where Staircase SAEs maintain interaction sparsity improvements while preserving feature interpretability. Our work highlights the importance of interaction sparsity in SAEs through benchmarking and comparing promising architectures.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、ニューラルネットワークを解釈可能な特徴に分解し、接続回路をマッピングすることを目的としている。
標準的なアプローチでは、各レイヤのアクティベーションに対してスパースオートエンコーダ(SAE)を訓練する。
しかし、分離で訓練されたSAEは、複数の下流機能に不必要に影響を及ぼす抽出回路を膨らませる、疎い層間接続を奨励しない。
現在の評価では個々のSAE性能に焦点が当てられ、相互作用のスパーシリティは未検討のままである。
SAE特徴間の相互作用間隔を測定するベンチマークであるSCALAR(Sparse Connectivity Assessment of Latent Activation Relationships)を紹介する。
また、ウェイトシェアリングを用いて、下流機能間の上流機能の重複を制限する「階段SAE」を提案する。
SCALARを用いて、TopK SAEs、Jacobian SAEs(JSAEs)、Staircase SAEsを比較した。
ステアケースSAEは、TopK SAEの相対間隔を59.67 % \pm 1.83 %$ (feedforward) と 63.15 % \pm 1.35 %$ (transformer block) で改善する。
JSAEはフィードフォワード層ではTopKよりも8.54\% \pm 0.38\%$改善されているが、StaircaseやTopK SAEとは異なり、トランスフォーマーブロック間で効果的にトレーニングすることはできない。
我々は216ドル(約2万2000円)のおもちゃモデルと2ドル(約2万2000円)のGPT-$Small(約1万4000円)モデルで検証を行い、Staircase SAEは機能解釈性を維持しながら相互作用空間の改善を維持している。
我々の研究は、ベンチマークや有望なアーキテクチャの比較を通じて、SAEにおける相互作用の疎結合の重要性を強調します。
関連論文リスト
- Does higher interpretability imply better utility? A Pairwise Analysis on Sparse Autoencoders [63.544453925182005]
3つの言語モデルで90のSAEをトレーニングし、解釈可能性と操舵性を評価します。
解析の結果,比較的弱い正の相関(tau b approx 0.298)しか示さず,解釈性は操舵性能の指標として不十分であることが示唆された。
本稿では,特徴量の増幅が次のトークン分布に与える影響を計測するデルタトークン信頼性(Delta Token Confidence)という新しい選択基準を提案する。
論文 参考訳(メタデータ) (2025-10-04T04:14:50Z) - OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features [10.871959954490217]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴にスパース分解する技術である。
本研究では,これらの問題を緩和するために,学習特徴間の直交性を強制する手法であるOrthogonal SAE(OrtSAE)を紹介する。
その結果,OrtSAEはより9%の異なる特徴を発見し,機能吸収率(65%)と構成率(15%)を低減し,スプリアス相関除去性能(+6%)を向上し,従来のSAEと比較して,他のダウンストリームタスクのオンパー性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-26T08:10:52Z) - Ensembling Sparse Autoencoders [10.81463830315253]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。
我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。
実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T23:31:21Z) - Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders [6.610766275883306]
スパースオートエンコーダ(SAE)は多意味的な活性化を解釈可能な線形方向へ分解する。
SAEがトレーニング対象の「真の特徴」の数よりも狭く、特徴の間に相関関係がある場合、SAEは関連する特徴のコンポーネントをマージする。
特徴ヘッジ(feature hedging)と呼ばれるこの現象は、SAE再建損失によって引き起こされ、SAEがより狭くなるほど深刻である。
論文 参考訳(メタデータ) (2025-05-16T23:30:17Z) - Low-Rank Adapting Models for Sparse Autoencoders [6.932760557251821]
我々は低ランク適応(LoRA)を用いて、以前に訓練されたSAEの周辺でテキストモデル自体を微調整する。
本手法は, 前方通過時にSAEを挿入した場合, クロスエントロピー損失ギャップを30%から55%削減する。
論文 参考訳(メタデータ) (2025-01-31T18:59:16Z) - μP$^2$: Effective Sharpness Aware Minimization Requires Layerwise Perturbation Scaling [49.25546155981064]
シャープネス認識最小化(SAM)を用いたニューラルネットワークの無限幅限界について検討する。
この結果から, SAMのダイナミクスは, 広範なニューラルネットワークにおいて, 最後の層のみにSAMを適用することで効果的に低下することが判明した。
対照的に、階層的なスケーリングを伴う安定したパラメータ化を識別し、それを $textitMaximal Update and Perturbation $$mu$P$2$ と呼びます。
論文 参考訳(メタデータ) (2024-10-31T16:32:04Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Systematic Investigation of Sparse Perturbed Sharpness-Aware
Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。
SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。
本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文 参考訳(メタデータ) (2023-06-30T09:33:41Z) - Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation
Approach [132.37966970098645]
人気のソリューションの1つがSAM(Sharpness-Aware Minimization)であり、摂動を加える際の体重減少の変化を最小限に抑える。
本稿では,Sparse SAM (SSAM) とよばれる効率的な学習手法を提案する。
さらに、S が同じSAM、すなわち $O(log T/sqrtTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT で収束できることを理論的に証明する。
論文 参考訳(メタデータ) (2022-10-11T06:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。