論文の概要: Transformer Key-Value Memories Are Nearly as Interpretable as Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2510.22332v1
- Date: Sat, 25 Oct 2025 15:34:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.511857
- Title: Transformer Key-Value Memories Are Nearly as Interpretable as Sparse Autoencoders
- Title(参考訳): トランスフォーマーのキー-バリューメモリは、スパースオートエンコーダと同じくらい解釈可能
- Authors: Mengyu Ye, Jun Suzuki, Tatsuro Inaba, Tatsuki Kuribayashi,
- Abstract要約: フィードフォワード層に格納された特徴ベクトルの解釈可能性について,現代的な解釈可能性ベンチマークを用いて再検討する。
評価の結果,SAEとFFsは類似の解釈可能性を示したが,SAEsは可観測であるが,いくつかの面では最小限の改善を示した。
ある面では、意外なことに、バニラFFでさえSAEよりも解釈可能性が高く、SAEとFFで発見された特徴は多様化した。
- 参考スコア(独自算出の注目度): 14.588679236585095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent interpretability work on large language models (LLMs) has been increasingly dominated by a feature-discovery approach with the help of proxy modules. Then, the quality of features learned by, e.g., sparse auto-encoders (SAEs), is evaluated. This paradigm naturally raises a critical question: do such learned features have better properties than those already represented within the original model parameters, and unfortunately, only a few studies have made such comparisons systematically so far. In this work, we revisit the interpretability of feature vectors stored in feed-forward (FF) layers, given the perspective of FF as key-value memories, with modern interpretability benchmarks. Our extensive evaluation revealed that SAE and FFs exhibits a similar range of interpretability, although SAEs displayed an observable but minimal improvement in some aspects. Furthermore, in certain aspects, surprisingly, even vanilla FFs yielded better interpretability than the SAEs, and features discovered in SAEs and FFs diverged. These bring questions about the advantage of SAEs from both perspectives of feature quality and faithfulness, compared to directly interpreting FF feature vectors, and FF key-value parameters serve as a strong baseline in modern interpretability research.
- Abstract(参考訳): 大規模言語モデル(LLM)における最近の解釈可能性の研究は、プロキシモジュールの助けを借りて、機能発見アプローチによってますます支配されている。
そして、例えばスパースオートエンコーダ(SAE)によって学習された特徴の質を評価する。
このような学習された特徴は、元々のモデルパラメータ内ですでに表現されているものよりも優れた特性を持つのか、残念ながら、そのような比較を体系的に行う研究はごくわずかである。
本稿では,FFをキーバリューメモリとして捉えた特徴ベクトルの解釈可能性について,現代的な解釈可能性ベンチマークを用いて再検討する。
以上の結果から,SAEとFFsは類似の解釈可能性を示したが,SAEsは可観測性・最小限の改善を示した。
さらに、ある面では、意外なことに、バニラFFでさえSAEよりも優れた解釈可能性を示し、SAEとFFで発見された特徴は多様化した。
これらのことは、FF特徴ベクトルを直接解釈するのに対し、特徴品質と忠実性の両方の観点からSAEの利点についての疑問をもたらし、FFキー値パラメータは現代の解釈可能性研究において強力なベースラインとなる。
関連論文リスト
- Does higher interpretability imply better utility? A Pairwise Analysis on Sparse Autoencoders [63.544453925182005]
3つの言語モデルで90のSAEをトレーニングし、解釈可能性と操舵性を評価します。
解析の結果,比較的弱い正の相関(tau b approx 0.298)しか示さず,解釈性は操舵性能の指標として不十分であることが示唆された。
本稿では,特徴量の増幅が次のトークン分布に与える影響を計測するデルタトークン信頼性(Delta Token Confidence)という新しい選択基準を提案する。
論文 参考訳(メタデータ) (2025-10-04T04:14:50Z) - Analysis of Variational Sparse Autoencoders [1.675385127117872]
SAEアーキテクチャに変分手法を組み込むことで,特徴構造や解釈可能性が改善されるかどうかを検討する。
本稿では,変分スパースオートエンコーダ(vSAE)を導入し,決定論的ReLUゲーティングを学習したガウス後部からのサンプリングに置き換える。
以上の結果から,SAEに対する変分法の適用は,機能的構造や解釈可能性の向上には至らないことが示唆された。
論文 参考訳(メタデータ) (2025-09-26T23:09:56Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Do Sparse Autoencoders Generalize? A Case Study of Answerability [32.356991861926105]
Gemma 2 SAEに対する多種多様な自己構築型回答可能性データセットを対象としたSAE特徴一般化の評価を行った。
分析の結果,残差ストリームプローブは領域内のSAE特性より優れていることがわかったが,一般化性能は著しく異なる。
論文 参考訳(メタデータ) (2025-02-27T10:45:25Z) - FADE: Why Bad Descriptions Happen to Good Features [14.00042287629001]
FADE: 特徴アライメントを記述評価に導入する。
FADEは、機能間アライメントを自動的に評価するためのスケーラブルなフレームワークである。
既存のオープンソース機能記述を分析し,自動解釈可能性パイプラインの重要なコンポーネントを評価するためにFADEを適用した。
論文 参考訳(メタデータ) (2025-02-24T09:28:35Z) - Uncovering Model Processing Strategies with Non-Negative Per-Example Fisher Factorization [44.39409273712917]
我々は,モデルが予測を生成するために使用する戦略を明らかにすることを目的とした解釈可能性手法であるNPEFFを紹介する。
我々は NPEFF コンポーネントが様々な言語モデルやテキスト処理タスクのモデル処理戦略に対応することを実証した。
論文 参考訳(メタデータ) (2023-10-07T02:02:45Z) - A Tale of Two Features: Stable Diffusion Complements DINO for Zero-Shot
Semantic Correspondence [83.90531416914884]
我々は,意味的および密接な対応のために安定拡散機能を利用する。
単純な後処理により、SD機能はSOTA表現と定量的に類似させることができる。
これらの対応は,2つの画像のインスタンススワップなど,興味深い応用を可能にすることを示す。
論文 参考訳(メタデータ) (2023-05-24T16:59:26Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z) - iffDetector: Inference-aware Feature Filtering for Object Detection [70.8678270164057]
Inference-aware Feature Filtering (IFF)モジュールを導入し、現代の検出器と簡単に組み合わせることができる。
IFFは、畳み込み機能を強化するためにハイレベルなセマンティクスを活用することでクローズドループ最適化を行う。
IFFはCNNベースの物体検出器とプラグアンドプレイ方式で融合でき、計算コストのオーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2020-06-23T02:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。