論文の概要: Measuring Sparse Autoencoder Feature Sensitivity
- arxiv url: http://arxiv.org/abs/2509.23717v1
- Date: Sun, 28 Sep 2025 07:58:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.395033
- Title: Measuring Sparse Autoencoder Feature Sensitivity
- Title(参考訳): スパースオートエンコーダの特徴感度の測定
- Authors: Claire Tian, Katherine Tian, Nathan Hu,
- Abstract要約: 特徴感度を評価するスケーラブルな手法を開発した。
言語モデルを用いて、機能の活性化例と同じ意味特性を持つテキストを生成する。
次に、これらの生成されたテキストでこの機能がアクティブになるかどうかをテストする。
- 参考スコア(独自算出の注目度): 2.0713351528571087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoder (SAE) features have become essential tools for mechanistic interpretability research. SAE features are typically characterized by examining their activating examples, which are often "monosemantic" and align with human interpretable concepts. However, these examples don't reveal feature sensitivity: how reliably a feature activates on texts similar to its activating examples. In this work, we develop a scalable method to evaluate feature sensitivity. Our approach avoids the need to generate natural language descriptions for features; instead we use language models to generate text with the same semantic properties as a feature's activating examples. We then test whether the feature activates on these generated texts. We demonstrate that sensitivity measures a new facet of feature quality and find that many interpretable features have poor sensitivity. Human evaluation confirms that when features fail to activate on our generated text, that text genuinely resembles the original activating examples. Lastly, we study feature sensitivity at the SAE level and observe that average feature sensitivity declines with increasing SAE width across 7 SAE variants. Our work establishes feature sensitivity as a new dimension for evaluating both individual features and SAE architectures.
- Abstract(参考訳): スパースオートエンコーダ(SAE)の機能は機械的解釈可能性研究に欠かせないツールとなっている。
SAEの特徴は典型的には、その活動例を調べることで特徴づけられるが、これはしばしば「モノスマンティック」であり、人間の解釈可能な概念と一致している。
しかし、これらの例は機能に対する感受性を明らかにしていない。
本研究では,特徴感度を評価するスケーラブルな手法を開発した。
我々のアプローチでは、機能のための自然言語記述を生成する必要がなくなる。代わりに、言語モデルを使用して、機能の活性化例と同じセマンティックプロパティを持つテキストを生成する。
次に、これらの生成されたテキストでこの機能がアクティブになるかどうかをテストする。
感度は特徴品質の新たな側面を測り,多くの解釈可能な特徴は感度が低いことを実証した。
人間による評価では、生成したテキストで機能がアクティベートできない場合、そのテキストは元のアクティベーションの例と真に類似している。
最後に,SAEレベルの特徴感度について検討し,SAEの7変種にまたがるSAE幅の増加に伴う平均特徴感度の低下を観察した。
我々の研究は、個々の特徴とSAEアーキテクチャの両方を評価するための新しい次元として、特徴感度を確立します。
関連論文リスト
- SKDU at De-Factify 4.0: Natural Language Features for AI-Generated Text-Detection [2.006175707670159]
NELAは、人書きテキストとAI生成テキストの区別において、RAIDARの機能を著しく上回っている。
XGBoostは最も効果的で、リッチな機能セットを活用して高い精度と一般化を実現した。
論文 参考訳(メタデータ) (2025-03-28T11:25:05Z) - Do Sparse Autoencoders Generalize? A Case Study of Answerability [32.356991861926105]
Gemma 2 SAEに対する多種多様な自己構築型回答可能性データセットを対象としたSAE特徴一般化の評価を行った。
分析の結果,残差ストリームプローブは領域内のSAE特性より優れていることがわかったが,一般化性能は著しく異なる。
論文 参考訳(メタデータ) (2025-02-27T10:45:25Z) - Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders [8.003244901104111]
類似した特徴を学習するために、並列訓練されたSAEを奨励し、特徴学習を改善するための正規化手法を提案する。
textscMFRは、GPT-2 Smallで最大21.21%、EEGデータで6.67%のSAEの再構築損失を改善することができる。
論文 参考訳(メタデータ) (2024-11-02T11:42:23Z) - ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs [72.13489820420726]
ProSAは、大規模な言語モデルにおいて、迅速な感度を評価し、理解するために設計されたフレームワークである。
我々の研究は、データセットやモデル間で迅速に感度が変動することを発見し、より大きなモデルでは堅牢性が向上することを示した。
論文 参考訳(メタデータ) (2024-10-16T09:38:13Z) - Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。
本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文 参考訳(メタデータ) (2024-09-12T16:51:58Z) - How are Prompts Different in Terms of Sensitivity? [50.67313477651395]
本稿では,関数の感度に基づく包括的即時解析を提案する。
出力に対する入力トークンの関連性に異なるプロンプトがどう影響するかを実証的に示すために、勾配に基づく唾液度スコアを使用する。
本稿では, 感度推定をペナルティ項として組み込んだ感度認識復号法を標準グリーディ復号法で導入する。
論文 参考訳(メタデータ) (2023-11-13T10:52:01Z) - Exploiting Semantic Attributes for Transductive Zero-Shot Learning [97.61371730534258]
ゼロショット学習は、視覚的特徴と、そのクラスから学んだ意味的属性の関係を一般化することにより、目に見えないクラスを認識することを目的としている。
本稿では,未知データの意味的属性を生成し,生成過程に付加する新しいZSL法を提案する。
5つの標準ベンチマーク実験により,本手法がゼロショット学習の最先端結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-03-17T09:09:48Z) - Sensitivity as a Complexity Measure for Sequence Classification Tasks [24.246784593571626]
標準のシーケンス分類法は低感度関数の学習に偏っているため、高感度を必要とするタスクがより困難である。
15のNLPタスクで感度を推定し、単純なテキスト分類タスクよりもGLUEで収集された挑戦的なタスクで感度が高いことを発見した。
論文 参考訳(メタデータ) (2021-04-21T03:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。