論文の概要: Sparse Autoencoders Do Not Find Canonical Units of Analysis
- arxiv url: http://arxiv.org/abs/2502.04878v1
- Date: Fri, 07 Feb 2025 12:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:57:51.743230
- Title: Sparse Autoencoders Do Not Find Canonical Units of Analysis
- Title(参考訳): スパースオートエンコーダは解析の標準単位を見つからない
- Authors: Patrick Leask, Bart Bussmann, Michael Pearce, Joseph Bloom, Curt Tigges, Noura Al Moubayed, Lee Sharkey, Neel Nanda,
- Abstract要約: 機械的解釈可能性の一般的な目標は、ニューラルネットワークの活性化を機能に分解することである。
スパースオートエンコーダ(SAE)はこれらの特徴を見つけるための一般的な方法である。
SAE縫合は不完全であることを示すもので、メタSAEは原子ではないことを示すものである。
- 参考スコア(独自算出の注目度): 6.0188420022822955
- License:
- Abstract: A common goal of mechanistic interpretability is to decompose the activations of neural networks into features: interpretable properties of the input computed by the model. Sparse autoencoders (SAEs) are a popular method for finding these features in LLMs, and it has been postulated that they can be used to find a \textit{canonical} set of units: a unique and complete list of atomic features. We cast doubt on this belief using two novel techniques: SAE stitching to show they are incomplete, and meta-SAEs to show they are not atomic. SAE stitching involves inserting or swapping latents from a larger SAE into a smaller one. Latents from the larger SAE can be divided into two categories: \emph{novel latents}, which improve performance when added to the smaller SAE, indicating they capture novel information, and \emph{reconstruction latents}, which can replace corresponding latents in the smaller SAE that have similar behavior. The existence of novel features indicates incompleteness of smaller SAEs. Using meta-SAEs -- SAEs trained on the decoder matrix of another SAE -- we find that latents in SAEs often decompose into combinations of latents from a smaller SAE, showing that larger SAE latents are not atomic. The resulting decompositions are often interpretable; e.g. a latent representing ``Einstein'' decomposes into ``scientist'', ``Germany'', and ``famous person''. Even if SAEs do not find canonical units of analysis, they may still be useful tools. We suggest that future research should either pursue different approaches for identifying such units, or pragmatically choose the SAE size suited to their task. We provide an interactive dashboard to explore meta-SAEs: https://metasaes.streamlit.app/
- Abstract(参考訳): 機械的解釈可能性の一般的な目標は、ニューラルネットワークの活性化を特徴に分解することである。
スパースオートエンコーダ (SAEs) は、これらの特徴を LLM で発見するための一般的な手法であり、それらを使って単位の \textit{canonical} 集合を見つけることができると仮定されている。
我々は,これらが不完全であることを示すSAE縫合法と,原子ではないことを示すメタSAEという2つの新しい手法を用いて,この信念に疑問を投げかけた。
SAE縫合では、より大きなSAEから小さなSAEへ潜伏剤を挿入または交換する。
より大きいSAEの潜伏剤は、より小さなSAEに追加すると性能が向上する \emph{novel latents} と、類似した振る舞いを持つより小さなSAEの潜伏剤を置き換える \emph{reconstruction latents} の2つのカテゴリに分けられる。
新規な特徴の存在は、より小さなSAEの不完全性を示している。
メタSAE(他のSAAEのデコーダマトリックスで訓練されたSAE)を使用することで、SAEの潜伏剤はより小さなSAEからの潜伏剤の組み合わせに分解されることがしばしばあり、より大きなSAE潜伏剤は原子ではないことを示す。
結果として生じる分解はしばしば解釈可能であり、例えば『アインシュタイン』を表す潜伏語は『科学者』、『ドイツ』、そして『悪名高い人物』に分解される。
たとえSAEが標準的な分析単位を見つけられなかったとしても、それらは有用なツールである。
今後の研究は、このようなユニットを識別するための異なるアプローチを追求するか、あるいはそれらのタスクに適したSAEサイズを実用的に選択するかを提案する。
メタSAEを探索するインタラクティブなダッシュボードを提供しています。
関連論文リスト
- Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。
SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。
我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文 参考訳(メタデータ) (2024-10-17T17:56:01Z) - Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs [0.0]
本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。
スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
論文 参考訳(メタデータ) (2024-10-15T01:38:03Z) - A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders [0.0]
Sparse Autoencoders (SAE) は、Large Language Models (LLM) のアクティベーションを分解するための有望なアプローチとして登場した。
第一に、SAEsはどの程度モノセマンティックかつ解釈可能なラテントを抽出するのか?
第二に、SAEの空間や大きさの変化が単意味性/解釈可能性にどの程度影響を及ぼすか?
論文 参考訳(メタデータ) (2024-09-22T16:11:02Z) - States Hidden in Hidden States: LLMs Emerge Discrete State Representations Implicitly [72.24742240125369]
本稿では,チェーン・オブ・ステップ・バイ・ステップの解に頼らずに,拡張された計算列を実行する本質的な能力を明らかにする。
注目すべきは、最も先進的なモデルでは、2桁の加算結果を直接出力できることだ。
論文 参考訳(メタデータ) (2024-07-16T06:27:22Z) - Interpreting Attention Layer Outputs with Sparse Autoencoders [3.201633659481912]
モデルアクティベーションを解釈可能なコンポーネントに分解することは、機械的解釈可能性において鍵となるオープンな問題である。
この作業では、注意層出力でSAEをトレーニングし、ここでもSAEがスパースで解釈可能な分解を見つけることを示す。
Sparse Autoencodersは、研究者が以前の作業よりも詳細にモデル動作を説明するのに役立つツールであることを示す。
論文 参考訳(メタデータ) (2024-06-25T17:43:13Z) - Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.42565443181017]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。
SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。
我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:19:00Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - An Overview of Advances in Signal Processing Techniques for Classical
and Quantum Wideband Synthetic Apertures [67.73886953504947]
合成開口(SA)システムは、単一のセンサーのみの物理的次元から本質的に可能なよりも大きな角分解能を持つ大きな開口を生成する。
本稿では,このような空間的およびスペクトル的広帯域SAシステムにおける信号処理の動向について概観する。
特に,広帯域SAレーダ,チャネル音響,ソナー,ラジオメトリー,光学応用の理論的枠組みと実践的基盤について述べる。
論文 参考訳(メタデータ) (2022-05-11T16:19:04Z) - Complex Event Forecasting with Prediction Suffix Trees: Extended
Technical Report [70.7321040534471]
複合イベント認識(CER)システムは、イベントのリアルタイムストリーム上のパターンを"即時"検出する能力によって、過去20年間に人気が高まっている。
このような現象が実際にCERエンジンによって検出される前に、パターンがいつ発生するかを予測する方法が不足している。
複雑なイベント予測の問題に対処しようとする形式的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T09:52:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。