論文の概要: Empirical Evaluation of Progressive Coding for Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2505.00190v1
- Date: Wed, 30 Apr 2025 21:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.177528
- Title: Empirical Evaluation of Progressive Coding for Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダのプログレッシブ符号化の実証評価
- Authors: Hans Peter, Anders Søgaard,
- Abstract要約: バニラSAEにおける辞書の重要性は権力法に従っていることを示す。
SAEは再建損失が低く,言語モデリング損失が回復したことを示す。
- 参考スコア(独自算出の注目度): 45.94517951918044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) \citep{bricken2023monosemanticity,gao2024scalingevaluatingsparseautoencoders} rely on dictionary learning to extract interpretable features from neural networks at scale in an unsupervised manner, with applications to representation engineering and information retrieval. SAEs are, however, computationally expensive \citep{lieberum2024gemmascopeopensparse}, especially when multiple SAEs of different sizes are needed. We show that dictionary importance in vanilla SAEs follows a power law. We compare progressive coding based on subset pruning of SAEs -- to jointly training nested SAEs, or so-called {\em Matryoshka} SAEs \citep{bussmann2024learning,nabeshima2024Matryoshka} -- on a language modeling task. We show Matryoshka SAEs exhibit lower reconstruction loss and recaptured language modeling loss, as well as higher representational similarity. Pruned vanilla SAEs are more interpretable, however. We discuss the origins and implications of this trade-off.
- Abstract(参考訳): Sparse autoencoders (SAEs) \citep{bricken2023monosemanticity,gao2024scalingevaluatingsparseautoencoders} は、エンジニアリングと情報検索の表現への応用を含む、教師なしの方法で、大規模にニューラルネットワークから解釈可能な特徴を抽出する辞書学習に依存している。
しかし、SAEは計算コストのかかる \citep{lieberum2024gemmascopeopensparse} である。
バニラSAEにおける辞書の重要性は権力法に従っていることを示す。
SAEのサブセットプルーニングに基づくプログレッシブコーディングと、ネストしたSAE、いわゆるSAEs \citep{bussmann2024learning,nabeshima2024Matryoshka}を言語モデリングタスクで比較する。
SAEは再構成損失が低く、言語モデリング損失も小さく、表現的類似性も高いことを示す。
しかし、切断されたバニラSAEはより解釈可能である。
このトレードオフの起源と意味について論じる。
関連論文リスト
- Learning Multi-Level Features with Matryoshka Sparse Autoencoders [2.039341938086125]
SAEは、SAE辞書の新たな変種である。
Gemma-2-2BとTinyStoriesでMatryoshka SAEsをトレーニングします。
スパース探索および目標概念消去タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-21T21:43:28Z) - Tokenized SAEs: Disentangling SAE Reconstructions [0.9821874476902969]
RES-JB SAEの特徴は, 単純な入力統計値に主に対応していることを示す。
特徴再構成からトークン再構成を分離する手法を提案する。
論文 参考訳(メタデータ) (2025-02-24T17:04:24Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs [0.0]
本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。
スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
論文 参考訳(メタデータ) (2024-10-15T01:38:03Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models [18.77400885091398]
本稿では,チェスやオセロ文字で訓練されたLMの設定を用いて,解釈可能な辞書学習の進展を測定することを提案する。
新しいSAEトレーニングテクニックである$textitp-annealing$を導入しました。
論文 参考訳(メタデータ) (2024-07-31T18:45:13Z) - What Are You Token About? Dense Retrieval as Distributions Over the
Vocabulary [68.77983831618685]
本稿では,2つのエンコーダが生成するベクトル表現を,モデルの語彙空間に投影することで解釈する。
得られたプロジェクションは、リッチな意味情報を含み、それらの間の接続を描画し、スパース検索を行う。
論文 参考訳(メタデータ) (2022-12-20T16:03:25Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。