論文の概要: Beyond Activation Patterns: A Weight-Based Out-of-Context Explanation of Sparse Autoencoder Features
- arxiv url: http://arxiv.org/abs/2601.22447v1
- Date: Fri, 30 Jan 2026 01:30:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.149797
- Title: Beyond Activation Patterns: A Weight-Based Out-of-Context Explanation of Sparse Autoencoder Features
- Title(参考訳): アクティベーションパターンを超えて:スパースオートエンコーダ機能の軽量なアウトオブコンテキスト記述
- Authors: Yiting Liu, Zhi-Hong Deng,
- Abstract要約: 現在の解釈法では、アクティベーションパターンから特徴セマンティクスを推測するが、前方通過における計算的役割を果たすアクティベーションを再構築するために特徴が訓練されているという見落としがある。
本稿では, 直接重み相互作用による機能的効果を計測し, アクティベーションデータを必要としない新しいウェイトベース解釈フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.463277740376236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) have emerged as a powerful technique for decomposing language model representations into interpretable features. Current interpretation methods infer feature semantics from activation patterns, but overlook that features are trained to reconstruct activations that serve computational roles in the forward pass. We introduce a novel weight-based interpretation framework that measures functional effects through direct weight interactions, requiring no activation data. Through three experiments on Gemma-2 and Llama-3.1 models, we demonstrate that (1) 1/4 of features directly predict output tokens, (2) features actively participate in attention mechanisms with depth-dependent structure, and (3) semantic and non-semantic feature populations exhibit distinct distribution profiles in attention circuits. Our analysis provides the missing out-of-context half of SAE feature interpretability.
- Abstract(参考訳): スパースオートエンコーダ (SAE) は言語モデル表現を解釈可能な特徴に分解する強力な手法として登場した。
現在の解釈法では、アクティベーションパターンから特徴セマンティクスを推測するが、前方通過における計算的役割を果たすアクティベーションを再構築するために特徴が訓練されているという見落としがある。
本稿では, 直接重み相互作用による機能的効果を計測し, アクティベーションデータを必要としない新しいウェイトベース解釈フレームワークを提案する。
Gemma-2とLlama-3.1モデルの3つの実験を通して、(1)特徴の1/4が直接出力トークンを予測し、(2)特徴が深さ依存構造を持つ注意機構に積極的に関与し、(3)意味的および非意味的特徴群が注意回路に異なる分布分布を示すことを示した。
我々の分析は、SAEの機能解釈可能性の半分が欠落しているコンテキストのアウトオブコンテクストを提供します。
関連論文リスト
- Mechanistic Knobs in LLMs: Retrieving and Steering High-Order Semantic Features via Sparse Autoencoders [8.188989044347595]
意味論的に解釈可能な内部特徴の検索とステアリングのためのスパースオートエンコーダベースのフレームワークを提案する。
本研究では,ビッグファイブの性格特性をケーススタディとして用いて,モデル行動の正確かつ双方向なステアリングを可能にすることを実証する。
論文 参考訳(メタデータ) (2026-01-06T12:40:37Z) - Circuit Insights: Towards Interpretability Beyond Activations [20.178085579725472]
WeightLensとCircuitLensの2つの相補的手法を提案する。
WeightLensは学習したウェイトから直接機能を解釈し、説明モデルやデータセットの必要性を取り除く。
CircuitLensは、コンポーネント間のインタラクションから機能アクティベーションがどのように発生し、回路レベルのダイナミクスを明らかにするのかをキャプチャする。
論文 参考訳(メタデータ) (2025-10-16T17:49:41Z) - Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization [17.101290138120564]
現在の手法は、スパースオートエンコーダ(SAE)を用いた辞書学習に依存している。
ここでは、セミ非負行列分解(SNMF)によるアクティベーションを直接分解することで、これらの制限に対処する。
Llama 3.1, Gemma 2, GPT-2の実験では、SNMFはSAEよりも優れており、因果的ステアリングに強い教師付きベースライン(差-in-means)がある。
論文 参考訳(メタデータ) (2025-06-12T17:33:29Z) - Analyze Feature Flow to Enhance Interpretation and Steering in Language Models [3.8498574327875947]
本研究では,スパースオートエンコーダによって発見される特徴を,大規模言語モデルの連続的な層にわたって体系的にマッピングする手法を提案する。
データフリーなコサイン類似性技術を使用することで、各ステージで特定の機能が持続、変換、あるいは最初に現れるかを追跡できる。
論文 参考訳(メタデータ) (2025-02-05T09:39:34Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Transforming Feature Space to Interpret Machine Learning Models [91.62936410696409]
この貢献は、特徴空間変換のレンズを通して機械学習モデルを解釈する新しいアプローチを提案する。
非条件的および条件付きポストホック診断ツールの拡張に使用できる。
提案手法の可能性を実証するために,46特徴のリモートセンシング土地被覆分類の事例研究を行った。
論文 参考訳(メタデータ) (2021-04-09T10:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。