論文の概要: Evaluating Sparse Autoencoders for Monosemantic Representation
- arxiv url: http://arxiv.org/abs/2508.15094v1
- Date: Wed, 20 Aug 2025 22:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.108421
- Title: Evaluating Sparse Autoencoders for Monosemantic Representation
- Title(参考訳): 単意味表現のためのスパースオートエンコーダの評価
- Authors: Moghis Fereidouni, Muhammad Umair Haider, Peizhong Ju, A. B. Siddique,
- Abstract要約: 大きな言語モデルを解釈する鍵となる障壁は多意味性(polysemanticity)であり、ニューロンは複数の無関係な概念を活性化する。
スパースオートエンコーダ(SAE)は、高密度なアクティベーションをよりスパースで解釈可能な特徴に変換することでこの問題を軽減するために提案されている。
本稿では,単意味性に関する基礎モデルに対して,SAEを初めて体系的に評価する。
- 参考スコア(独自算出の注目度): 7.46972338257749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key barrier to interpreting large language models is polysemanticity, where neurons activate for multiple unrelated concepts. Sparse autoencoders (SAEs) have been proposed to mitigate this issue by transforming dense activations into sparse, more interpretable features. While prior work suggests that SAEs promote monosemanticity, there has been no quantitative comparison with their base models. This paper provides the first systematic evaluation of SAEs against base models concerning monosemanticity. We introduce a fine-grained concept separability score based on the Jensen-Shannon distance, which captures how distinctly a neuron's activation distributions vary across concepts. Using Gemma-2-2B and multiple SAE variants across five benchmarks, we show that SAEs reduce polysemanticity and achieve higher concept separability. However, greater sparsity of SAEs does not always yield better separability and often impairs downstream performance. To assess practical utility, we evaluate concept-level interventions using two strategies: full neuron masking and partial suppression. We find that, compared to base models, SAEs enable more precise concept-level control when using partial suppression. Building on this, we propose Attenuation via Posterior Probabilities (APP), a new intervention method that uses concept-conditioned activation distributions for targeted suppression. APP outperforms existing approaches in targeted concept removal.
- Abstract(参考訳): 大きな言語モデルを解釈する鍵となる障壁は多意味性(polysemanticity)であり、ニューロンは複数の無関係な概念を活性化する。
スパースオートエンコーダ(SAE)は、高密度なアクティベーションをよりスパースで解釈可能な特徴に変換することでこの問題を軽減するために提案されている。
以前の研究は、SAEが単意味性を促進することを示唆していたが、ベースモデルと定量的に比較することはなかった。
本稿では,単意味性に関する基礎モデルに対して,SAEを初めて体系的に評価する。
本稿では,ジェンセン-シャノン距離に基づく概念分離性スコアを導入し,ニューロンの活性化分布が概念によってどのように異なるかを明らかにする。
5つのベンチマークでGemma-2-2Bと複数のSAE変異体を用いて、SAEが多意味性を低減し、より高い概念分離性を実現することを示す。
しかし、SAEの幅が大きくなると必ずしも分離性が向上するわけではなく、しばしば下流のパフォーマンスを損なう。
実用性を評価するために,完全ニューロンマスキングと部分抑制の2つの戦略を用いて概念レベルの介入を評価する。
基礎モデルと比較して,SAEは部分的抑制を用いた場合,より正確な概念レベルの制御を可能にする。
そこで本研究では,概念条件付きアクティベーション分布を標的抑制に用いる新たな介入手法であるAPP(Posterior Probabilities)を提案する。
APPは、ターゲットコンセプトの削除において、既存のアプローチよりも優れています。
関連論文リスト
- On the Theoretical Understanding of Identifiable Sparse Autoencoders and Beyond [36.107366496809675]
スパースオートエンコーダ(SAE)は、大規模言語モデル(LLM)によって学習された特徴を解釈する強力なツールとして登場した。
複雑な重畳されたポリセマンティックな特徴を、わずかに活性化されたニューラルネットワークによる特徴再構成によって解釈可能なモノセマンティックな特徴に復元することを目的としている。
SAEの幅広い応用にもかかわらず、SAEがどのような条件下で、重畳された多意味的特徴から基底真理単意味的特徴を完全に回復できるかは不明である。
論文 参考訳(メタデータ) (2025-06-19T02:16:08Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization [17.101290138120564]
現在の手法は、スパースオートエンコーダ(SAE)を用いた辞書学習に依存している。
ここでは、セミ非負行列分解(SNMF)によるアクティベーションを直接分解することで、これらの制限に対処する。
Llama 3.1, Gemma 2, GPT-2の実験では、SNMFはSAEよりも優れており、因果的ステアリングに強い教師付きベースライン(差-in-means)がある。
論文 参考訳(メタデータ) (2025-06-12T17:33:29Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Ensembling Sparse Autoencoders [10.81463830315253]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。
我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。
実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T23:31:21Z) - SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders [4.013156524547073]
拡散モデルは、必然的に有害または望ましくないコンテンツを生成できる。
最近の機械学習アプローチは潜在的な解決策を提供するが、透明性を欠いていることが多い。
本稿では,スパースオートエンコーダが学習した特徴を利用して不要な概念を除去する手法であるSAeUronを紹介する。
論文 参考訳(メタデータ) (2025-01-29T23:29:47Z) - Beyond Interpretability: The Gains of Feature Monosemanticity on Model Robustness [68.69369585600698]
ディープラーニングモデルは多意味性による解釈可能性の欠如に悩まされることが多い。
神経細胞が一貫したセマンティクスと異なるセマンティクスに対応するモノセマンティクスの最近の進歩は、解釈可能性を大幅に改善した。
モノセマンティックな特徴は解釈可能性を高めるだけでなく、モデル性能の具体的な向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-27T18:03:20Z) - Sparse Prototype Network for Explainable Pedestrian Behavior Prediction [60.80524827122901]
Sparse Prototype Network (SPN) は,歩行者の将来の行動,軌道,ポーズを同時に予測するための説明可能な手法である。
モノセマンティリティとクラスタリングの制約によって規則化されたプロトタイプは、一貫性と人間の理解可能な機能を学ぶ。
論文 参考訳(メタデータ) (2024-10-16T03:33:40Z) - MulCPred: Learning Multi-modal Concepts for Explainable Pedestrian Action Prediction [57.483718822429346]
MulCPredは、トレーニングサンプルで表されるマルチモーダルな概念に基づいて、その予測を説明する。
MulCPredは複数のデータセットとタスクで評価される。
論文 参考訳(メタデータ) (2024-09-14T14:15:28Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。