論文の概要: Use Sparse Autoencoders to Discover Unknown Concepts, Not to Act on Known Concepts
- arxiv url: http://arxiv.org/abs/2506.23845v1
- Date: Mon, 30 Jun 2025 13:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.081342
- Title: Use Sparse Autoencoders to Discover Unknown Concepts, Not to Act on Known Concepts
- Title(参考訳): スパースオートエンコーダによる未知の概念の発見
- Authors: Kenny Peng, Rajiv Movva, Jon Kleinberg, Emma Pierson, Nikhil Garg,
- Abstract要約: 我々は、SAEは既知の概念に作用しないかもしれないが、SAEは未知の概念を発見するための強力なツールであると主張している。
この区別は、既存の負および正の結果をきれいに分離し、SAEアプリケーションのいくつかのクラスを示唆する。
- 参考スコア(独自算出の注目度): 1.5450225594635711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While sparse autoencoders (SAEs) have generated significant excitement, a series of negative results have added to skepticism about their usefulness. Here, we establish a conceptual distinction that reconciles competing narratives surrounding SAEs. We argue that while SAEs may be less effective for acting on known concepts, SAEs are powerful tools for discovering unknown concepts. This distinction cleanly separates existing negative and positive results, and suggests several classes of SAE applications. Specifically, we outline use cases for SAEs in (i) ML interpretability, explainability, fairness, auditing, and safety, and (ii) social and health sciences.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は大きな興奮を引き起こしているが、その有用性に対する懐疑論に一連の否定的な結果が加えられている。
ここでは、SAEを取り巻く競合する物語を和らげる概念的区別を確立する。
我々は、SAEは既知の概念に作用しないかもしれないが、SAEは未知の概念を発見するための強力なツールであると主張している。
この区別は、既存の負および正の結果をきれいに分離し、SAEアプリケーションのいくつかのクラスを示唆する。
具体的には、SAEのユースケースについて概説する。
一 MLの解釈可能性、説明可能性、公正性、監査及び安全性
(二)社会科学・健康科学
関連論文リスト
- Ensembling Sparse Autoencoders [10.81463830315253]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。
我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。
実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T23:31:21Z) - Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders [1.0582505915332336]
スパースオートエンコーダ(SAE)は多意味的な活性化を解釈可能な線形方向へ分解する。
SAEがトレーニング対象の「真の特徴」の数よりも狭く、特徴の間に相関関係がある場合、SAEは関連する特徴のコンポーネントをマージする。
特徴ヘッジ(feature hedging)と呼ばれるこの現象は、SAE再建損失によって引き起こされ、SAEがより狭くなるほど深刻である。
論文 参考訳(メタデータ) (2025-05-16T23:30:17Z) - Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
視覚表現におけるニューロンレベルでの単意味性を評価するための包括的枠組みを提案する。
実験の結果,視覚言語モデルで訓練したSAEは個々のニューロンの単意味性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-03T17:58:35Z) - Projecting Assumptions: The Duality Between Sparse Autoencoders and Concept Geometry [11.968306791864034]
両レベル最適化問題に対する解決策として,SAEを再放送する統合フレームワークを導入する。
これらの特性が無視された場合、SAEは概念の回復に失敗することを示す。
我々の発見は、普遍的なSAEの概念に挑戦し、モデル解釈可能性におけるアーキテクチャ固有の選択の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-03-03T18:47:40Z) - Are Sparse Autoencoders Useful? A Case Study in Sparse Probing [6.836374436707495]
スパースオートエンコーダ(SAE)は、大言語モデル(LLM)アクティベーションで表される概念を解釈する一般的な方法である。
もう一つの証拠源は、SAEが既存のベースラインを超えて下流タスクのパフォーマンスを改善していることを示すことである。
SAEを4つの状況下でのLCM活性化の現実的なタスクに適用することで、これを検証する。
論文 参考訳(メタデータ) (2025-02-23T18:54:15Z) - AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs [72.13489820420726]
ProSAは、大規模な言語モデルにおいて、迅速な感度を評価し、理解するために設計されたフレームワークである。
我々の研究は、データセットやモデル間で迅速に感度が変動することを発見し、より大きなモデルでは堅牢性が向上することを示した。
論文 参考訳(メタデータ) (2024-10-16T09:38:13Z) - Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs [0.0]
本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。
スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
論文 参考訳(メタデータ) (2024-10-15T01:38:03Z) - Distinguish Before Answer: Generating Contrastive Explanation as
Knowledge for Commonsense Question Answering [61.53454387743701]
本稿では,概念中心のPrompt-bAsed Contrastive Explanation GenerationモデルであるCPACEを提案する。
CPACEは、得られたシンボル知識を、与えられた候補間の差異をよりよく区別するために、対照的な説明に変換する。
本稿では,CSQA,QASC,OBQAの3つの質問回答データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-05-14T12:12:24Z) - How Does Selective Mechanism Improve Self-Attention Networks? [57.75314746470783]
選択的な機構を持つ自己注意ネットワーク(SAN)は、様々なNLPタスクにおいて大幅に改善されている。
本稿では,柔軟で普遍的なGumbel-Softmaxで実装した選択的SANの強度を評価する。
我々は、SSANの改良は、単語順エンコーディングと構造モデリングという2つの一般的なSANの弱点を緩和することに起因すると実証的に検証した。
論文 参考訳(メタデータ) (2020-05-03T04:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。