論文の概要: Does higher interpretability imply better utility? A Pairwise Analysis on Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2510.03659v1
- Date: Sat, 04 Oct 2025 04:14:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.179987
- Title: Does higher interpretability imply better utility? A Pairwise Analysis on Sparse Autoencoders
- Title(参考訳): 高い解釈性は有用か? : スパースオートエンコーダのペアワイズ解析
- Authors: Xu Wang, Yan Hu, Benyou Wang, Difan Zou,
- Abstract要約: 3つの言語モデルで90のSAEをトレーニングし、解釈可能性と操舵性を評価します。
解析の結果,比較的弱い正の相関(tau b approx 0.298)しか示さず,解釈性は操舵性能の指標として不十分であることが示唆された。
本稿では,特徴量の増幅が次のトークン分布に与える影響を計測するデルタトークン信頼性(Delta Token Confidence)という新しい選択基準を提案する。
- 参考スコア(独自算出の注目度): 63.544453925182005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Autoencoders (SAEs) are widely used to steer large language models (LLMs), based on the assumption that their interpretable features naturally enable effective model behavior steering. Yet, a fundamental question remains unanswered: does higher interpretability indeed imply better steering utility? To answer this question, we train 90 SAEs across three LLMs (Gemma-2-2B, Qwen-2.5-3B, Gemma-2-9B), spanning five architectures and six sparsity levels, and evaluate their interpretability and steering utility based on SAEBench (arXiv:2501.12345) and AxBench (arXiv:2502.23456) respectively, and perform a rank-agreement analysis via Kendall's rank coefficients (tau b). Our analysis reveals only a relatively weak positive association (tau b approx 0.298), indicating that interpretability is an insufficient proxy for steering performance. We conjecture the interpretability utility gap may stem from the selection of SAE features, as not all of them are equally effective for steering. To further find features that truly steer the behavior of LLMs, we propose a novel selection criterion called Delta Token Confidence, which measures how much amplifying a feature changes the next token distribution. We show that our method improves the steering performance of three LLMs by 52.52 percent compared to the current best output score based criterion (arXiv:2503.34567). Strikingly, after selecting features with high Delta Token Confidence, the correlation between interpretability and utility vanishes (tau b approx 0), and can even become negative. This further highlights the divergence between interpretability and utility for the most effective steering features.
- Abstract(参考訳): スパースオートエンコーダ (SAEs) は,大きな言語モデル (LLMs) のステアリングに広く用いられている。
しかし、根本的な疑問は未解決のままである: 高い解釈可能性は実際、より優れた操舵ユーティリティを意味するのだろうか?
この疑問に答えるために、90のSAEを3つのLLM(Gemma-2-2B, Qwen-2.5-3B, Gemma-2-9B)でトレーニングし、5つのアーキテクチャと6つの空間レベルにまたがり、SAEBench(arXiv:2501.12345)とAxBench(arXiv:2502.23456)に基づいて解釈可能性と操舵性を評価し、Kendallのランク係数(tau b)を介してランクアグリメント分析を行う。
解析の結果,比較的弱い正の相関(tau b approx 0.298)しか示さず,解釈性は操舵性能の指標として不十分であることが示唆された。
本研究は,SAE特徴の選択による解釈可能性のギャップを推察するものであり,これらすべてがステアリングに等しく有効であるわけではない。
さらに, LLMの挙動を真に制御する特徴を見出すため, デルタトークン信頼と呼ばれる新しい選択基準を提案し, 次のトークン分布をどの程度増幅するかを計測する。
本手法は,現在最高の出力スコアベース基準(arXiv:2503.34567)と比較して,3 LLMのステアリング性能を52.52%向上することを示す。
興味深いことに、Delta Token Confidence の高い機能を選択した後、解釈可能性とユーティリティの相関は消滅する(tau b approx 0)。
このことは、最も効果的なステアリング機能に対する解釈可能性とユーティリティの相違をさらに強調する。
関連論文リスト
- A Comparative Analysis of Sparse Autoencoder and Activation Difference in Language Model Steering [0.0]
我々は、冗長な特徴を排除し、単一の最も関連性の高いSAE潜伏者(top-1)に焦点を当てることを提案する。
推論に関連付けられたSAE潜伏剤の操舵は、ステップバイステップの数学的推論を確実に引き起こすことを示す。
その結果,SAEは数学推論ベンチマークにおいて平均アクティベーション差法より優れており,IF-Eval上での性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-09-24T08:31:31Z) - CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection [0.0]
提案するCorrSteerは,サンプルの正しさとSAEのアクティベーションを推論時に生成したトークンから関連付けて特徴を選択する。
我々の研究は、言語モデルアプリケーション間での自動SAEステアリングのための効果的でスケーラブルなアプローチとして相関ベースの選択を確立する。
論文 参考訳(メタデータ) (2025-08-18T00:01:42Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。