論文の概要: Learning Multi-Level Features with Matryoshka Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2503.17547v1
- Date: Fri, 21 Mar 2025 21:43:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:23.269581
- Title: Learning Multi-Level Features with Matryoshka Sparse Autoencoders
- Title(参考訳): Matryoshka スパースオートエンコーダを用いたマルチレベル特徴の学習
- Authors: Bart Bussmann, Noa Nabeshima, Adam Karvonen, Neel Nanda,
- Abstract要約: SAEは、SAE辞書の新たな変種である。
Gemma-2-2BとTinyStoriesでMatryoshka SAEsをトレーニングします。
スパース探索および目標概念消去タスクにおいて優れた性能を示す。
- 参考スコア(独自算出の注目度): 2.039341938086125
- License:
- Abstract: Sparse autoencoders (SAEs) have emerged as a powerful tool for interpreting neural networks by extracting the concepts represented in their activations. However, choosing the size of the SAE dictionary (i.e. number of learned concepts) creates a tension: as dictionary size increases to capture more relevant concepts, sparsity incentivizes features to be split or absorbed into more specific features, leaving high-level features missing or warped. We introduce Matryoshka SAEs, a novel variant that addresses these issues by simultaneously training multiple nested dictionaries of increasing size, forcing the smaller dictionaries to independently reconstruct the inputs without using the larger dictionaries. This organizes features hierarchically - the smaller dictionaries learn general concepts, while the larger dictionaries learn more specific concepts, without incentive to absorb the high-level features. We train Matryoshka SAEs on Gemma-2-2B and TinyStories and find superior performance on sparse probing and targeted concept erasure tasks, more disentangled concept representations, and reduced feature absorption. While there is a minor tradeoff with reconstruction performance, we believe Matryoshka SAEs are a superior alternative for practical tasks, as they enable training arbitrarily large SAEs while retaining interpretable features at different levels of abstraction.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、そのアクティベーションに表される概念を抽出することによって、ニューラルネットワークを解釈するための強力なツールとして登場した。
しかし、SAE辞書のサイズ(つまり、学習された概念の数)を選択すると緊張が生じる: 辞書のサイズが大きくなるにつれて、スパーシティは、より特定の特徴に分割または吸収される特徴を動機付け、高いレベルの特徴が失われたり、歪んだりする。
これらの問題に対処するための新しい変種であるMatryoshka SAEsを導入し、さらに大きな辞書を使わずにインプットを独立的に再構築することを余儀なくされた。
より小さな辞書は一般的な概念を学ぶが、大きな辞書は高いレベルの特徴を吸収するインセンティブなしでより具体的な概念を学ぶ。
我々はGemma-2-2BとTinyStoriesでMatryoshka SAEsを訓練し、スパース探索および目標概念消去タスク、より不整合な概念表現、特徴吸収の低減に優れた性能を見出した。
再建性能には若干のトレードオフがあるが,我々は,解釈可能な機能を異なる抽象レベルで維持しつつ,任意の規模のSAEを任意に訓練できるため,SAEが実用的なタスクの優れた代替品であると信じている。
関連論文リスト
- Archetypal SAE: Adaptive and Stable Dictionary Learning for Concept Extraction in Large Vision Models [16.894375498353092]
スパースオートエンコーダ(SAE)は、機械学習の解釈可能性のための強力なフレームワークとして登場した。
既存のSAEは、類似したデータセットでトレーニングされた同一のモデルは、非常に異なる辞書を生成することができるため、深刻な不安定性を示す。
本稿では、辞書の原子を凸殻に拘束するArchitypal SAEについて述べる。
論文 参考訳(メタデータ) (2025-02-18T14:29:11Z) - Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。
概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。
本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文 参考訳(メタデータ) (2024-12-11T23:36:20Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Identifying Functionally Important Features with End-to-End Sparse Dictionary Learning [0.9374652839580183]
ニューラルネットワークによって学習された特徴を特定することは、機械的解釈可能性における中核的な課題である。
本稿では,SAEの学習方法であるエンドツーエンドのスパース辞書学習を提案する。
我々は,e2e SAE特徴と標準SAE特徴との幾何学的および定性的差異について検討する。
論文 参考訳(メタデータ) (2024-05-17T17:03:46Z) - Dictionary Learning Improves Patch-Free Circuit Discovery in Mechanistic
Interpretability: A Case Study on Othello-GPT [59.245414547751636]
本稿では,アクティベーションパッチに代わる回路発見フレームワークを提案する。
当社のフレームワークはアウト・オブ・ディストリビューション(out-of-distribution)に悩まされており、複雑さの観点からより効率的であることが証明されています。
我々はOthelloという名前の合成タスクで訓練された小さなトランスフォーマーを掘り下げ、その内部に人間に理解可能な微細な回路がいくつかある。
論文 参考訳(メタデータ) (2024-02-19T15:04:53Z) - Multi hash embeddings in spaCy [1.6790532021482656]
spaCyは、単語の複数埋め込み表現を生成する機械学習システムである。
SpaCyのデフォルトの埋め込み層は、ハッシュ埋め込み層である。
この技術レポートでは、いくつかの歴史を概説し、paCyに埋め込み手法を詳しく紹介します。
論文 参考訳(メタデータ) (2022-12-19T06:03:04Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Efficient CNN with uncorrelated Bag of Features pooling [98.78384185493624]
Bag of Features (BoF)は、畳み込み層の複雑さを軽減するために最近提案されている。
本稿では,BoFプーリング上に構築した手法を用いて,学習辞書の項目が非冗長であることを保証する。
提案した戦略は、BoFの効率的な変種を生成し、追加のパラメータを使わずにその性能をさらに向上させる。
論文 参考訳(メタデータ) (2022-09-22T09:00:30Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。