論文の概要: A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2409.14507v5
- Date: Mon, 02 Jun 2025 10:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:52.962455
- Title: A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders
- Title(参考訳): A is for absorption: Studying Feature Splitting and absorption in Sparse Autoencoders (特集:A)
- Authors: David Chanin, James Wilken-Smith, Tomáš Dulka, Hardik Bhatnagar, Satvik Golechha, Joseph Bloom,
- Abstract要約: 階層的特徴のスパース分解と分割は堅牢ではないことを示す。
具体的には、モノセマンティックな特徴が本来あるべき場所に放たれるのに失敗し、代わりに子供の特徴に"吸収"されることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) aim to decompose the activation space of large language models (LLMs) into human-interpretable latent directions or features. As we increase the number of features in the SAE, hierarchical features tend to split into finer features ("math" may split into "algebra", "geometry", etc.), a phenomenon referred to as feature splitting. However, we show that sparse decomposition and splitting of hierarchical features is not robust. Specifically, we show that seemingly monosemantic features fail to fire where they should, and instead get "absorbed" into their children features. We coin this phenomenon feature absorption, and show that it is caused by optimizing for sparsity in SAEs whenever the underlying features form a hierarchy. We introduce a metric to detect absorption in SAEs, and validate our findings empirically on hundreds of LLM SAEs. Our investigation suggests that varying SAE sizes or sparsity is insufficient to solve this issue. We discuss the implications of feature absorption in SAEs and some potential approaches to solve the fundamental theoretical issues before SAEs can be used for interpreting LLMs robustly and at scale.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、大きな言語モデル(LLM)の活性化空間を人間の解釈可能な潜在方向や特徴に分解することを目的としている。
SAEにおける特徴の数が増加するにつれて、階層的特徴はより微細な特徴に分裂する傾向がある("math"は、特徴分割と呼ばれる現象である"algebra"、"geometry"等に分裂することがある)。
しかし、階層的特徴のスパース分解と分割は堅牢ではないことを示す。
具体的には、モノセマンティックな特徴が本来あるべき場所に放たれるのに失敗し、代わりに子供の特徴に"吸収"されることを示す。
この現象は, 階層構造を形成するとき, SAEの空間分布を最適化することが原因であることを示す。
我々は,SAEの吸収を検知する指標を導入し,この知見を数百のLSM SAE上で実証的に検証した。
本研究は, 種々のSAEサイズや小ささが, この問題を解決するには不十分であることを示唆している。
我々は,SAEにおける特徴吸収の影響と,SAEがLSMを頑健かつ大規模に解釈するために使われる前に,基本的な理論的問題を解くための潜在的なアプローチについて議論する。
関連論文リスト
- Do Sparse Autoencoders Generalize? A Case Study of Answerability [12.131254862319865]
Gemma 2 SAEに対する多様な応答性データセット間のSAE特徴一般化を評価した。
解析の結果,残差ストリームプローブは領域内のSAE特性より優れていることがわかったが,一般化性能は著しく異なる。
論文 参考訳(メタデータ) (2025-02-27T10:45:25Z) - Sparse Autoencoders Do Not Find Canonical Units of Analysis [6.0188420022822955]
機械的解釈可能性の一般的な目標は、ニューラルネットワークの活性化を機能に分解することである。
スパースオートエンコーダ(SAE)はこれらの特徴を見つけるための一般的な方法である。
SAE縫合は不完全であることを示すもので、メタSAEは原子ではないことを示すものである。
論文 参考訳(メタデータ) (2025-02-07T12:33:08Z) - Rethinking Evaluation of Sparse Autoencoders through the Representation of Polysemous Words [29.09237503747052]
スパースオートエンコーダ(SAE)は、大規模言語モデル(LLM)の解釈性を改善するための有望なツールとして多くの注目を集めている。
本稿では,多文単語に着目した単意味特徴の質を解析するためのSAEの評価スイートを提案する。
論文 参考訳(メタデータ) (2025-01-09T02:54:19Z) - Content-Style Learning from Unaligned Domains: Identifiability under Unknown Latent Dimensions [11.872336932802844]
クロスドメインテクトitlatent Distribution Match (LDM) による新しい分析フレームワークを提案する。
我々は、潜伏変数の成分的独立性のような制限的な仮定を除去できることを示す。
我々は LDM の定式化を正規化マルチドメイン GAN ロスに再キャストし, 遅延変数を結合させた。
論文 参考訳(メタデータ) (2024-11-06T08:30:23Z) - Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - Interpreting Attention Layer Outputs with Sparse Autoencoders [3.201633659481912]
モデルアクティベーションを解釈可能なコンポーネントに分解することは、機械的解釈可能性において鍵となるオープンな問題である。
この作業では、注意層出力でSAEをトレーニングし、ここでもSAEがスパースで解釈可能な分解を見つけることを示す。
Sparse Autoencodersは、研究者が以前の作業よりも詳細にモデル動作を説明するのに役立つツールであることを示す。
論文 参考訳(メタデータ) (2024-06-25T17:43:13Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - Aligning Language Models to Explicitly Handle Ambiguity [22.078095273053506]
我々は,あいまいなクエリを扱うために,言語モデルを整列する新しいパイプラインであるAlignment with Perceived Ambiguity (APA)を提案する。
質問応答データセットの実験結果から、APAはLLMに対して、あいまいなクエリを明示的に検出し、管理する権限を持つことが示された。
我々の発見は、APAがゴールドスタンダードラベルのトレーニング、特にアウト・オブ・ディストリビューションのシナリオで優れていることを証明している。
論文 参考訳(メタデータ) (2024-04-18T07:59:53Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Where and What? Examining Interpretable Disentangled Representations [96.32813624341833]
解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。
独立性の仮定と異なり、解釈性は教師なしの設定での絡み合いを促進するために使われることは滅多にない。
本論文では, 解釈対象と解釈対象の2つの質問について検討し, 離散表現の解釈可能性を検討する。
論文 参考訳(メタデータ) (2021-04-07T11:22:02Z) - Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty
Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。
前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。
後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文 参考訳(メタデータ) (2021-04-01T03:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。