論文の概要: Sparse Autoencoders Trained on the Same Data Learn Different Features
- arxiv url: http://arxiv.org/abs/2501.16615v2
- Date: Wed, 29 Jan 2025 19:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 11:52:50.111708
- Title: Sparse Autoencoders Trained on the Same Data Learn Different Features
- Title(参考訳): 異なる特徴を学習した同じデータに基づくスパースオートエンコーダ
- Authors: Gonçalo Paulo, Nora Belrose,
- Abstract要約: スパースオートエンコーダ(SAE)は、大きな言語モデルで人間の解釈可能な特徴を明らかにするのに有用なツールである。
我々の研究は、SAEが同じモデルとデータに基づいて訓練したことを示しています。
- 参考スコア(独自算出の注目度): 0.7234862895932991
- License:
- Abstract: Sparse autoencoders (SAEs) are a useful tool for uncovering human-interpretable features in the activations of large language models (LLMs). While some expect SAEs to find the true underlying features used by a model, our research shows that SAEs trained on the same model and data, differing only in the random seed used to initialize their weights, identify different sets of features. For example, in an SAE with 131K latents trained on a feedforward network in Llama 3 8B, only 30% of the features were shared across different seeds. We observed this phenomenon across multiple layers of three different LLMs, two datasets, and several SAE architectures. While ReLU SAEs trained with the L1 sparsity loss showed greater stability across seeds, SAEs using the state-of-the-art TopK activation function were more seed-dependent, even when controlling for the level of sparsity. Our results suggest that the set of features uncovered by an SAE should be viewed as a pragmatically useful decomposition of activation space, rather than an exhaustive and universal list of features "truly used" by the model.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、大規模言語モデル(LLM)のアクティベーションにおいて、人間の解釈可能な特徴を明らかにするのに有用なツールである。
SAEがモデルで使われる真の基盤となる特徴を見つけることを期待する人もいるが、我々の研究は、SAEが同じモデルとデータで訓練されたことを示している。
例えば、Llama 3 8Bのフィードフォワードネットワークで131Kの潜伏剤を訓練したSAEでは、その30%が異なる種子で共有されていた。
我々は,この現象を3つの異なるLLM,2つのデータセット,複数のSAEアーキテクチャの複数層にわたって観測した。
ReLU SAEs training with L1 sparsity loss showed more stability across seed, but SAEs using the state-of-the-the-art TopK activation function was more seed-dependent in the level of sparsity。
以上の結果から,SAEによって発見された特徴の集合は,モデルによって「真に利用されている」特徴の総括的・普遍的リストではなく,現実的に有用な活性化空間の分解とみなすべきであると考えられる。
関連論文リスト
- Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。
SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。
我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文 参考訳(メタデータ) (2024-10-17T17:56:01Z) - Sparse Autoencoders Reveal Universal Feature Spaces Across Large Language Models [14.594698598522797]
特徴普遍性を実証することで、潜在表現に関する発見が複数のモデルにまたがって一般化される。
辞書学習(Dictionary Learning)と呼ばれる手法を用いて、LSMの活性化を個々の特徴に対応するニューロンにまたがる解釈可能な空間に変換する。
実験により,SAE特徴空間の様々な LLM における顕著な類似性が明らかとなり,特徴普遍性を示す新たな証拠が得られた。
論文 参考訳(メタデータ) (2024-10-09T15:18:57Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Identifying Functionally Important Features with End-to-End Sparse Dictionary Learning [0.9374652839580183]
ニューラルネットワークによって学習された特徴を特定することは、機械的解釈可能性における中核的な課題である。
本稿では,SAEの学習方法であるエンドツーエンドのスパース辞書学習を提案する。
我々は,e2e SAE特徴と標準SAE特徴との幾何学的および定性的差異について検討する。
論文 参考訳(メタデータ) (2024-05-17T17:03:46Z) - A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence [83.90531416914884]
我々は,意味的および密接な対応のために安定拡散機能を利用する。
単純な後処理により、SD機能はSOTA表現と定量的に類似させることができる。
これらの対応は,2つの画像のインスタンススワップなど,興味深い応用を可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-24T16:59:26Z) - Self-Supervised Learning for Invariant Representations from
Multi-Spectral and SAR Images [5.994412766684843]
自己監視学習(SSL)は、いくつかのドメイン分類とセグメンテーションタスクにおいて、新しい最先端技術となっている。
本研究は, リモートセンシング(RS)領域に蒸留ネットワーク(BYOL)を適用したRSDnetを提案する。
論文 参考訳(メタデータ) (2022-05-04T13:16:48Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z) - Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文 参考訳(メタデータ) (2020-07-19T07:24:45Z) - Adversarial Feature Hallucination Networks for Few-Shot Learning [84.31660118264514]
Adversarial Feature Hallucination Networks (AFHN) は条件付き Wasserstein Generative Adversarial Network (cWGAN) に基づいている。
合成された特徴の識別性と多様性を促進するために、2つの新規レギュレータがAFHNに組み込まれている。
論文 参考訳(メタデータ) (2020-03-30T02:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。