論文の概要: Descriptive Collision in Sparse Autoencoder Auto-Interpretability: When One Explanation Describes Many Features
- arxiv url: http://arxiv.org/abs/2605.12874v1
- Date: Wed, 13 May 2026 01:41:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.750716
- Title: Descriptive Collision in Sparse Autoencoder Auto-Interpretability: When One Explanation Describes Many Features
- Title(参考訳): スパースオートエンコーダにおける記述的衝突:1つの説明が多くの特徴を記述する場合
- Authors: Jordan F. McCann,
- Abstract要約: 私たちは衝突と呼ばれる問題を特定します。多くの異なるSAE機能は、同じ説明を認めています。
判別と呼ばれる特性を定式化し、現在の検出スタイルの自己解釈可能性スコアが衝突に不変であることを証明した。
衝突検出と識別スコアの2つの相補的な補正指標を提案し、隣人との特徴を区別できない説明を明示的にペナルティ化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) are now standard tools for decomposing language model activations into interpretable features, and automated interpretability pipelines routinely assign each feature a short natural-language explanation. Existing critiques of this practice focus on polysemanticity -- one feature with many meanings -- or on whether explanations predict activations. We identify a complementary, structurally distinct problem we call descriptive collision: many distinct SAE features admit the same explanation. Reanalyzing the largest publicly-available dataset of human-annotated SAE features (Marks et al., 2025), comprising 722 annotated features across Gemma 2 2B and Pythia 70M, we find that the mean annotation string is reused across 3.07 features; 82.1% of features share their annotation with at least one other feature; and the single most common annotation string ("plural nouns") labels 101 distinct features spanning 18 layers and four model components. Information-theoretically, the average annotation resolves only 70% of feature identity. We formalize a property called discrimination, prove that current detection-style auto-interpretability scoring is invariant to collision, and propose two complementary corrective metrics -- collision-adjusted detection and discrimination scoring -- that explicitly penalize explanations that fail to distinguish a feature from its neighbors. The collision problem is independent of, and additive with, previously identified failure modes of auto-interpretability; ignoring it inflates reported feature interpretability by a quantity equal to roughly one-third of the bits required to identify a feature.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、言語モデルのアクティベーションを解釈可能な機能に分解するための標準ツールとなり、自動解釈可能性パイプラインは、各機能を短い自然言語説明として日常的に割り当てる。
このプラクティスの既存の批判は、多意味性(多意味性)、あるいは説明がアクティベーションを予測するかどうかに焦点を当てている。
私たちは、記述的衝突(descriptive collision)と呼ぶ相補的で構造的に異なる問題を特定します。
Gemma 2 2B と Pythia 70M にまたがる 722 のアノテート機能を含む,人間アノテーション付きSAE 機能データセット (Marks et al , 2025 ) を解析した結果,平均アノテーション文字列が 3.07 の機能にわたって再利用されていることがわかった。
情報理論では、平均的なアノテーションは特徴アイデンティティの70%しか解決しない。
我々は、識別と呼ばれる特性を定式化し、現在の検出スタイルの自己解釈可能性スコアが衝突に不変であることを証明し、隣人との特徴を区別できない説明を明示的に罰する2つの補完的補正指標(衝突調整検出と識別スコア)を提案する。
衝突問題は、事前に特定された自己解釈可能性の障害モードと独立かつ付加的であり、それを無視することで、その特徴を特定するのに必要なビットの約3分の1に等しい量で、報告された特徴解釈可能性を無視している。
関連論文リスト
- Automated Interpretability and Feature Discovery in Language Models with Agents [3.660409142843126]
本稿では,大規模言語モデルの内部機能の説明と発見の両方を自動化する,機械論的解釈性のための自律型マルチエージェントフレームワークを提案する。
エージェント駆動型経験ループは1ショットラベルよりもシャープで、よりファルサブルな説明が得られることを示す。
論文 参考訳(メタデータ) (2026-05-02T17:53:30Z) - Control Reinforcement Learning: Interpretable Token-Level Steering of LLMs via Sparse Autoencoder Features [1.5874067490843806]
Control Reinforcement Learningは、各トークンでステアリングするためのSAE機能を選択するポリシーをトレーニングし、解釈可能な介入ログを生成する。
Adaptive Feature Maskingは、単一機能解釈性を維持しながら、多様な機能発見を促進する。
MMLU、BBQ、GSM8K、HarmBench、XSTestにわたるGemma 2Bでは、CRLは、トークン単位の介入ログを提供しながら改善されている。
論文 参考訳(メタデータ) (2026-02-11T02:28:49Z) - Decomposing Query-Key Feature Interactions Using Contrastive Covariances [75.38737409771085]
クエリとキー間の双方向のジョイント埋め込み空間であるクエリキー空間について検討する。
キーとクエリの機能がこれらの低ランクのサブスペースに整列して、高い注目スコアが生成されるときです。
論文 参考訳(メタデータ) (2026-02-04T16:50:02Z) - Beyond Activation Patterns: A Weight-Based Out-of-Context Explanation of Sparse Autoencoder Features [11.463277740376236]
現在の解釈法では、アクティベーションパターンから特徴セマンティクスを推測するが、前方通過における計算的役割を果たすアクティベーションを再構築するために特徴が訓練されているという見落としがある。
本稿では, 直接重み相互作用による機能的効果を計測し, アクティベーションデータを必要としない新しいウェイトベース解釈フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-30T01:30:48Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Inherent Inconsistencies of Feature Importance [6.02357145653815]
特徴重要度は、予測結果に対する個々の特徴の寄与にスコアを割り当てる手法である。
本稿では,特徴重要度スコアの異なる文脈間のコヒーレントな関係を確立するために設計された公理的枠組みを提案する。
論文 参考訳(メタデータ) (2022-06-16T14:21:51Z) - ELUDE: Generating interpretable explanations via a decomposition into
labelled and unlabelled features [23.384134043048807]
モデルの予測を2つの部分に分解する説明フレームワークを開発する。
後者を識別することで、モデルの"説明できない"部分を分析することができます。
また,同機能領域で訓練された複数のモデルに対して,非競合機能セットが一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T17:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。