Fugu-MT 論文翻訳(概要): A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders

論文の概要: A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders

arxiv url: http://arxiv.org/abs/2409.14507v3
Date: Mon, 30 Sep 2024 20:42:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 22:30:40.550704
Title: A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders
Title（参考訳）: A is for absorption: Studying Feature Splitting and absorption in Sparse Autoencoders (特集:A)
Authors: David Chanin, James Wilken-Smith, Tomáš Dulka, Hardik Bhatnagar, Joseph Bloom,
Abstract要約: Sparse Autoencoders (SAE) は、Large Language Models (LLM) のアクティベーションを分解するための有望なアプローチとして登場した。第一に、SAEsはどの程度モノセマンティックかつ解釈可能なラテントを抽出するのか? 第二に、SAEの空間や大きさの変化が単意味性/解釈可能性にどの程度影響を及ぼすか?
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse Autoencoders (SAEs) have emerged as a promising approach to decompose the activations of Large Language Models (LLMs) into human-interpretable latents. In this paper, we pose two questions. First, to what extent do SAEs extract monosemantic and interpretable latents? Second, to what extent does varying the sparsity or the size of the SAE affect monosemanticity / interpretability? By investigating these questions in the context of a simple first-letter identification task where we have complete access to ground truth labels for all tokens in the vocabulary, we are able to provide more detail than prior investigations. Critically, we identify a problematic form of feature-splitting we call feature absorption where seemingly monosemantic latents fail to fire in cases where they clearly should. Our investigation suggests that varying SAE size or sparsity is insufficient to solve this issue, and that there are deeper conceptual issues in need of resolution.
Abstract（参考訳）: Sparse Autoencoders (SAEs) は、Large Language Models (LLMs) のアクティベーションを人間の解釈可能なラテントに分解する、有望なアプローチとして登場した。本稿では2つの疑問を提起する。まず、SAEsはどの程度モノセマンティックで解釈可能な潜水剤を抽出するのか? 第二に、SAEの空間や大きさの変化が単意味性/解釈可能性にどの程度影響するか。これらの質問を、語彙中の全てのトークンに対して、基底真理ラベルに完全にアクセス可能な単純なファーストレター識別タスクの文脈で調査することにより、以前の調査よりも詳細な情報を提供することができる。批判的に言えば、特徴吸収と呼ばれる機能分割の問題点は、明らかにすべき場合において、単意味的な潜伏剤が発射に失敗するように見えることである。本研究は,SAEのサイズや空間の多様性が,この問題を解決するには不十分であり,解決が必要な概念的な問題があることを示唆している。

関連論文リスト

LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [56.474856189865946]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。 LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-07-08T07:46:26Z)
Dense SAE Latents Are Features, Not Bugs [75.08462524662072]
言語モデル計算において,高密度潜伏剤が機能的役割を担っていることを示す。位置追跡,コンテキストバインディング,エントロピー制御,文字固有出力信号,パート・オブ・音声,主成分再構成に関連するクラスを同定する。
論文参考訳（メタデータ） (2025-06-18T17:59:35Z)
Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders [1.0582505915332336]
スパースオートエンコーダ(SAE)は多意味的な活性化を解釈可能な線形方向へ分解する。 SAEがトレーニング対象の「真の特徴」の数よりも狭く、特徴の間に相関関係がある場合、SAEは関連する特徴のコンポーネントをマージする。特徴ヘッジ(feature hedging)と呼ばれるこの現象は、SAE再建損失によって引き起こされ、SAEがより狭くなるほど深刻である。
論文参考訳（メタデータ） (2025-05-16T23:30:17Z)
Empirical Evaluation of Progressive Coding for Sparse Autoencoders [45.94517951918044]
バニラSAEにおける辞書の重要性は権力法に従っていることを示す。 SAEは再建損失が低く,言語モデリング損失が回復したことを示す。
論文参考訳（メタデータ） (2025-04-30T21:08:32Z)
Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality [3.9230690073443166]
そこで本研究では,スパース特徴ベクトルの大きさを,その正則な閉形式誤差境界を持つ密度ベクトルを用いて近似できることを示す。本稿では,AFA (Approximate Activation Feature) を提案する。トップAFA SAE は最先端の最先端 SAE に匹敵する再構築損失を達成できることを実証する。
論文参考訳（メタデータ） (2025-03-31T16:22:11Z)
Do Sparse Autoencoders Generalize? A Case Study of Answerability [12.131254862319865]
Gemma 2 SAEに対する多様な応答性データセット間のSAE特徴一般化を評価した。解析の結果,残差ストリームプローブは領域内のSAE特性より優れていることがわかったが,一般化性能は著しく異なる。
論文参考訳（メタデータ） (2025-02-27T10:45:25Z)
Sparse Autoencoders Do Not Find Canonical Units of Analysis [6.0188420022822955]
機械的解釈可能性の一般的な目標は、ニューラルネットワークの活性化を機能に分解することである。スパースオートエンコーダ(SAE)はこれらの特徴を見つけるための一般的な方法である。 SAE縫合は不完全であることを示すもので、メタSAEは原子ではないことを示すものである。
論文参考訳（メタデータ） (2025-02-07T12:33:08Z)
Rethinking Evaluation of Sparse Autoencoders through the Representation of Polysemous Words [29.09237503747052]
スパースオートエンコーダ(SAE)は、大規模言語モデル(LLM)の解釈性を改善するための有望なツールとして多くの注目を集めている。本稿では,多文単語に着目した単意味特徴の質を解析するためのSAEの評価スイートを提案する。
論文参考訳（メタデータ） (2025-01-09T02:54:19Z)
Content-Style Learning from Unaligned Domains: Identifiability under Unknown Latent Dimensions [11.872336932802844]
クロスドメインテクトitlatent Distribution Match (LDM) による新しい分析フレームワークを提案する。我々は、潜伏変数の成分的独立性のような制限的な仮定を除去できることを示す。我々は LDM の定式化を正規化マルチドメイン GAN ロスに再キャストし, 遅延変数を結合させた。
論文参考訳（メタデータ） (2024-11-06T08:30:23Z)
Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文参考訳（メタデータ） (2024-10-27T17:33:49Z)
Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。 SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文参考訳（メタデータ） (2024-10-17T17:56:01Z)
Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs [0.0]
本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
論文参考訳（メタデータ） (2024-10-15T01:38:03Z)
Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文参考訳（メタデータ） (2024-08-01T15:46:22Z)
Interpreting Attention Layer Outputs with Sparse Autoencoders [3.201633659481912]
モデルアクティベーションを解釈可能なコンポーネントに分解することは、機械的解釈可能性において鍵となるオープンな問題である。この作業では、注意層出力でSAEをトレーニングし、ここでもSAEがスパースで解釈可能な分解を見つけることを示す。 Sparse Autoencodersは、研究者が以前の作業よりも詳細にモデル動作を説明するのに役立つツールであることを示す。
論文参考訳（メタデータ） (2024-06-25T17:43:13Z)
Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文参考訳（メタデータ） (2024-05-26T22:30:29Z)
Aligning Language Models to Explicitly Handle Ambiguity [22.078095273053506]
我々は,あいまいなクエリを扱うために,言語モデルを整列する新しいパイプラインであるAlignment with Perceived Ambiguity (APA)を提案する。質問応答データセットの実験結果から、APAはLLMに対して、あいまいなクエリを明示的に検出し、管理する権限を持つことが示された。我々の発見は、APAがゴールドスタンダードラベルのトレーニング、特にアウト・オブ・ディストリビューションのシナリオで優れていることを証明している。
論文参考訳（メタデータ） (2024-04-18T07:59:53Z)
SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文参考訳（メタデータ） (2023-11-08T18:46:32Z)
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文参考訳（メタデータ） (2023-05-15T17:15:40Z)
We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文参考訳（メタデータ） (2023-04-27T17:57:58Z)
A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文参考訳（メタデータ） (2022-01-20T15:01:12Z)
Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文参考訳（メタデータ） (2021-10-28T16:12:33Z)
Where and What? Examining Interpretable Disentangled Representations [96.32813624341833]
解釈可能なバリエーションの獲得は、長い間、絡み合い学習の目標の1つだった。独立性の仮定と異なり、解釈性は教師なしの設定での絡み合いを促進するために使われることは滅多にない。本論文では, 解釈対象と解釈対象の2つの質問について検討し, 離散表現の解釈可能性を検討する。
論文参考訳（メタデータ） (2021-04-07T11:22:02Z)
Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文参考訳（メタデータ） (2021-04-01T03:21:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。