論文の概要: Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality
- arxiv url: http://arxiv.org/abs/2503.24277v2
- Date: Fri, 08 Aug 2025 11:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 18:31:47.097178
- Title: Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality
- Title(参考訳): 準直交性近似によるスパースオートエンコーダの評価と設計
- Authors: Sewoong Lee, Adam Davies, Marc E. Canby, Julia Hockenmaier,
- Abstract要約: 近似的特徴アクティベーション(AFA)の定式化に基づく新しいアクティベーション関数 Top-AFA を導入する。
3つの中間層上のSAEをトレーニングして、OpenWebTextデータセットから8000万以上のトークンに対して、GPT2の隠れ埋め込みを再構築することにより、このアプローチの実証的なメリットを実演する。
- 参考スコア(独自算出の注目度): 3.9230690073443166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) are widely used in mechanistic interpretability research for large language models; however, the state-of-the-art method of using $k$-sparse autoencoders lacks a theoretical grounding for selecting the hyperparameter $k$ that represents the number of nonzero activations, often denoted by $\ell_0$. In this paper, we reveal a theoretical link that the $\ell_2$-norm of the sparse feature vector can be approximated with the $\ell_2$-norm of the dense vector with a closed-form error, which allows sparse autoencoders to be trained without the need to manually determine $\ell_0$. Specifically, we validate two applications of our theoretical findings. First, we introduce a new methodology that can assess the feature activations of pre-trained SAEs by computing the theoretically expected value from the input embedding, which has been overlooked by existing SAE evaluation methods and loss functions. Second, we introduce a novel activation function, top-AFA, which builds upon our formulation of approximate feature activation (AFA). This function enables top-$k$ style activation without requiring a constant hyperparameter $k$ to be tuned, dynamically determining the number of activated features for each input. By training SAEs on three intermediate layers to reconstruct GPT2 hidden embeddings for over 80 million tokens from the OpenWebText dataset, we demonstrate the empirical merits of this approach and compare it with current state-of-the-art $k$-sparse autoencoders. Our code is available at: https://github.com/SewoongLee/top-afa-sae.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、大規模言語モデルの機械論的解釈可能性の研究で広く使われているが、$k$-sparseオートエンコーダを使用する最先端の手法では、非ゼロアクティベーションの数を表すハイパーパラメータ$k$を選択する理論的根拠が欠けている。
本稿では,スパース特徴ベクトルの $\ell_2$-norm が閉形式誤差を持つ密度ベクトルの $\ell_2$-norm と近似可能であることを明らかにする。
具体的には、理論的発見の2つの応用を検証した。
まず,既存のSAE評価手法や損失関数から見落としている入力埋め込みから理論的に期待される値を計算し,事前学習したSAEの特徴活性化を評価する手法を提案する。
第2に、近似的特徴活性化(AFA)の定式化に基づく新しいアクティベーション関数 Top-AFA を導入する。
この関数は、一定のハイパーパラメータ$k$をチューニングすることなく、トップ$k$スタイルのアクティベーションを可能にし、入力毎にアクティベートされた機能の数を動的に決定する。
3つの中間層上のSAEをトレーニングして、OpenWebTextデータセットから8000万以上のトークンに対して、GPT2の隠れ埋め込みを再構築することにより、このアプローチの実証的なメリットを実証し、現在の最先端の$k$sparseオートエンコーダと比較する。
私たちのコードは、https://github.com/SewoongLee/top-afa-sae.comで利用可能です。
関連論文リスト
- Sparse Semantic Dimension as a Generalization Certificate for LLMs [53.681678236115836]
Sparse Semantic Dimension (SSD)は,モデル層上で訓練されたSparse Autoencoder (SAE)のアクティブな特徴語彙から導かれる複雑性尺度である。
我々はGPT-2 Small と Gemma-2B でこの枠組みを検証し、実際のサンプルサイズで非空き証明書を提供することを実証した。
論文 参考訳(メタデータ) (2026-02-11T21:45:18Z) - Neural Networks Learn Generic Multi-Index Models Near Information-Theoretic Limit [66.20349460098275]
一般ガウス多次元モデル $f(boldsymbolx)=g(boldsymbolUboldsymbolx)$ の勾配降下学習を隠蔽部分空間 $boldsymbolUin mathbbRrtimes d$ で研究する。
リンク関数上の一般的な非退化仮定の下では、層次勾配勾配勾配によって訓練された標準的な2層ニューラルネットワークは、$o_d(1)$テスト誤差でターゲットを不可知的に学習できることを示す。
論文 参考訳(メタデータ) (2025-11-19T04:46:47Z) - DuoLens: A Framework for Robust Detection of Machine-Generated Multilingual Text and Code [5.38764489657443]
多言語テキストとソースコードを生成するLarge Language Models (LLMs) は、マシン生成コンテンツ検出器がドメイン全体にわたって正確かつ効率的であることの必須条件を増大させるだけである。
現在の検出器は、Fast DetectGPTやGPTZeroのようなゼロショット法を主に利用しており、高い計算コストまたは十分な精度が欠如している。
本稿では,エンコーダのみのSmall Language Models (SLM) の微調整,特にRoBERTAとCodeBERTaの事前学習モデルについて,ソースコードやその他の自然言語に関する特別なデータセットを用いて提案する。
論文 参考訳(メタデータ) (2025-10-21T00:17:00Z) - Binary Autoencoder for Mechanistic Interpretability of Large Language Models [8.725176890854065]
隠れアクティベーションのミニバッチに最小エントロピーを強制する新しいバイナリオートエンコーダを提案する。
効率的なエントロピー計算のために、ステップ関数を介して隠れたアクティベーションを1ビットに識別する。
我々は、大規模言語モデルの推論力学を経験的に評価し、活用する。
論文 参考訳(メタデータ) (2025-09-25T10:48:48Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Feature Extraction and Steering for Enhanced Chain-of-Thought Reasoning in Language Models [48.40096116617163]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)技術を用いて推論と数学的問題を解く能力を示す。
この研究はDeepSeek-R1の深い思考パラダイムにインスパイアされ、外部データセットを使わずにLCMの推論能力を高めるためにステアリング技術を利用している。
論文 参考訳(メタデータ) (2025-05-21T15:17:59Z) - SplInterp: Improving our Understanding and Training of Sparse Autoencoders [10.800240155402417]
スパースオートエンコーダ (SAE) は機械的解釈可能性のツールとして近年注目されている。
SAEの真の有用性については近年疑問が持たれている。
我々は,SAEを訓練するための新しい近似交互手法 SGD (PAM-SGD) アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-17T04:51:26Z) - Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders [1.0582505915332336]
スパースオートエンコーダ(SAE)は多意味的な活性化を解釈可能な線形方向へ分解する。
SAEがトレーニング対象の「真の特徴」の数よりも狭く、特徴の間に相関関係がある場合、SAEは関連する特徴のコンポーネントをマージする。
特徴ヘッジ(feature hedging)と呼ばれるこの現象は、SAE再建損失によって引き起こされ、SAEがより狭くなるほど深刻である。
論文 参考訳(メタデータ) (2025-05-16T23:30:17Z) - SAND: One-Shot Feature Selection with Additive Noise Distortion [3.5976830118932583]
我々は、ニューラルネットワークトレーニング中に最も有用な機能を自動的に識別し、選択する新しい非侵入的特徴選択層を導入する。
本手法は,損失関数,ネットワークアーキテクチャ,選択後再学習などの変更を要さず,一意に単純である。
私たちの研究は、単純さとパフォーマンスが相互に排他的ではなく、機械学習における機能選択の強力な、かつ直接的なツールであることを示している。
論文 参考訳(メタデータ) (2025-05-06T18:59:35Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Are Sparse Autoencoders Useful? A Case Study in Sparse Probing [6.836374436707495]
スパースオートエンコーダ(SAE)は、大言語モデル(LLM)アクティベーションで表される概念を解釈する一般的な方法である。
もう一つの証拠源は、SAEが既存のベースラインを超えて下流タスクのパフォーマンスを改善していることを示すことである。
SAEを4つの状況下でのLCM活性化の現実的なタスクに適用することで、これを検証する。
論文 参考訳(メタデータ) (2025-02-23T18:54:15Z) - AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - Evaluating Sparse Autoencoders on Targeted Concept Erasure Tasks [1.4565166775409717]
スパースオートエンコーダ(SAE)は、ニューラルネットワークのアクティベーションを解釈可能な単位に分解することを目的とした解釈可能性技術である。
我々は,マークスらによる下流作業である ShiFT に基づく評価のファミリを紹介する。
我々は ShiFT をSAE 品質の自動測定基準に適合させ,人間のアノテーションを LLM に置き換える。
また、SAEが同様の概念を解き放つ能力を定量化するTPP(Targeted Probe Perturbation)指標も導入する。
論文 参考訳(メタデータ) (2024-11-28T03:58:48Z) - Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。
我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。
g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文 参考訳(メタデータ) (2024-11-15T18:03:52Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs [0.0]
本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。
スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
論文 参考訳(メタデータ) (2024-10-15T01:38:03Z) - $\textit{X}^2$-DFD: A framework for e${X}$plainable and e${X}$tendable Deepfake Detection [52.14468236527728]
3つのコアモジュールからなる新しいフレームワークX2$-DFDを提案する。
最初のモジュールであるモデル特徴評価(MFA)は、MLLMに固有の偽機能の検出能力を計測し、これらの機能の下位ランキングを提供する。
第2のモジュールであるStrong Feature Strengthening (SFS)は、上位機能に基づいて構築されたデータセット上でMLLMを微調整することで、検出と説明機能を強化する。
第3のモジュールであるWak Feature Supplementing (WFS)は、外部専用の機能を統合することで、低階機能における微調整MLLMの機能を改善する。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders [0.0]
階層的特徴のスパース分解と分割は堅牢ではないことを示す。
具体的には、モノセマンティックな特徴が本来あるべき場所に放たれるのに失敗し、代わりに子供の特徴に"吸収"されることを示す。
論文 参考訳(メタデータ) (2024-09-22T16:11:02Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Improving Dictionary Learning with Gated Sparse Autoencoders [8.3037652157611]
Gated Sparse Autoencoder (Gated SAE)は、言語モデル(LM)アクティベーションにおける解釈可能な特徴を教師なしで発見する技術である。
SAEでは、スパーシリティを促進するために使われるL1ペナルティは、収縮のような望ましくないバイアスを多く導入する。
最大7BパラメータのLM上でSAEを訓練する際には、Gated SAEは収縮を解消し、同等の再現性を達成するのに半分の燃焼特性を必要とする。
論文 参考訳(メタデータ) (2024-04-24T17:47:22Z) - Symmetric Equilibrium Learning of VAEs [56.56929742714685]
可変オートエンコーダ(VAE)をデコーダ-エンコーダペアとみなし,データ空間内の分布を潜在空間内の分布にマッピングする。
本研究では,エンコーダとデコーダに対して対称なナッシュ均衡学習手法を提案し,データと潜伏分布の両方がサンプリングによってのみアクセス可能な状況下でのVAEの学習を可能にする。
論文 参考訳(メタデータ) (2023-07-19T10:27:34Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Stealing the Decoding Algorithms of Language Models [56.369946232765656]
現代の言語モデル(LM)からテキストを生成する重要な要素は、復号アルゴリズムの選択とチューニングである。
本研究では,LMに典型的なAPIアクセスを持つ敵が,その復号アルゴリズムの型とハイパーパラメータを盗むことができることを示す。
我々の攻撃は、GPT-2、GPT-3、GPT-Neoなどのテキスト生成APIで使われる一般的なLMに対して効果的である。
論文 参考訳(メタデータ) (2023-03-08T17:15:58Z) - Learning Efficient Coding of Natural Images with Maximum Manifold
Capacity Representations [4.666056064419346]
効率的な符号化仮説は、感覚系の応答特性が入力の統計に適応していることを提案する。
エレガントではあるものの、情報理論の特性は実際的な設定や最適化の目的関数として使うのが難しいことで知られている。
ここでは、多様体の容量を直接最適化し、最大多様体容量表現(MMCR)が得られるという仮定を概説する。
論文 参考訳(メタデータ) (2023-03-06T17:26:30Z) - Provably Efficient Neural Offline Reinforcement Learning via Perturbed
Rewards [33.88533898709351]
VIPeRは、ランダム化された値関数のアイデアと悲観主義の原理を一致させる。
オフラインデータを複数回摂動することで、暗黙的に悲観性を得る。
ニューラルネットワーク関数近似を用いた一般的なマルコフ決定過程(MDP)において、証明可能かつ計算的に効率的である。
論文 参考訳(メタデータ) (2023-02-24T17:52:12Z) - Neural networks behave as hash encoders: An empirical study [79.38436088982283]
ReLUライクなアクティベーションを持つニューラルネットワークの入力空間は、複数の線形領域に分割される。
このパーティションは、さまざまなディープラーニングモデルで以下のエンコーディング特性を示すことを実証します。
K$-Means、$K$-NN、およびロジスティック回帰などの単純なアルゴリズムは、トレーニングデータとテストデータの両方でかなり優れたパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2021-01-14T07:50:40Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - Learning Autoencoders with Relational Regularization [89.53065887608088]
データ分散のオートエンコーダを学習するための新しいフレームワークを提案する。
エンフレレーショナル正規化によるモデルと対象分布の差を最小限にする
我々はこのフレームワークを2つのスケーラブルアルゴリズムで実装し、確率的および決定論的オートエンコーダの両方に適用する。
論文 参考訳(メタデータ) (2020-02-07T17:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。