論文の概要: Does higher interpretability imply better utility? A Pairwise Analysis on Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2510.03659v1
- Date: Sat, 04 Oct 2025 04:14:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.179987
- Title: Does higher interpretability imply better utility? A Pairwise Analysis on Sparse Autoencoders
- Title(参考訳): 高い解釈性は有用か? : スパースオートエンコーダのペアワイズ解析
- Authors: Xu Wang, Yan Hu, Benyou Wang, Difan Zou,
- Abstract要約: 3つの言語モデルで90のSAEをトレーニングし、解釈可能性と操舵性を評価します。
解析の結果,比較的弱い正の相関(tau b approx 0.298)しか示さず,解釈性は操舵性能の指標として不十分であることが示唆された。
本稿では,特徴量の増幅が次のトークン分布に与える影響を計測するデルタトークン信頼性(Delta Token Confidence)という新しい選択基準を提案する。
- 参考スコア(独自算出の注目度): 63.544453925182005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Autoencoders (SAEs) are widely used to steer large language models (LLMs), based on the assumption that their interpretable features naturally enable effective model behavior steering. Yet, a fundamental question remains unanswered: does higher interpretability indeed imply better steering utility? To answer this question, we train 90 SAEs across three LLMs (Gemma-2-2B, Qwen-2.5-3B, Gemma-2-9B), spanning five architectures and six sparsity levels, and evaluate their interpretability and steering utility based on SAEBench (arXiv:2501.12345) and AxBench (arXiv:2502.23456) respectively, and perform a rank-agreement analysis via Kendall's rank coefficients (tau b). Our analysis reveals only a relatively weak positive association (tau b approx 0.298), indicating that interpretability is an insufficient proxy for steering performance. We conjecture the interpretability utility gap may stem from the selection of SAE features, as not all of them are equally effective for steering. To further find features that truly steer the behavior of LLMs, we propose a novel selection criterion called Delta Token Confidence, which measures how much amplifying a feature changes the next token distribution. We show that our method improves the steering performance of three LLMs by 52.52 percent compared to the current best output score based criterion (arXiv:2503.34567). Strikingly, after selecting features with high Delta Token Confidence, the correlation between interpretability and utility vanishes (tau b approx 0), and can even become negative. This further highlights the divergence between interpretability and utility for the most effective steering features.
- Abstract(参考訳): スパースオートエンコーダ (SAEs) は,大きな言語モデル (LLMs) のステアリングに広く用いられている。
しかし、根本的な疑問は未解決のままである: 高い解釈可能性は実際、より優れた操舵ユーティリティを意味するのだろうか?
この疑問に答えるために、90のSAEを3つのLLM(Gemma-2-2B, Qwen-2.5-3B, Gemma-2-9B)でトレーニングし、5つのアーキテクチャと6つの空間レベルにまたがり、SAEBench(arXiv:2501.12345)とAxBench(arXiv:2502.23456)に基づいて解釈可能性と操舵性を評価し、Kendallのランク係数(tau b)を介してランクアグリメント分析を行う。
解析の結果,比較的弱い正の相関(tau b approx 0.298)しか示さず,解釈性は操舵性能の指標として不十分であることが示唆された。
本研究は,SAE特徴の選択による解釈可能性のギャップを推察するものであり,これらすべてがステアリングに等しく有効であるわけではない。
さらに, LLMの挙動を真に制御する特徴を見出すため, デルタトークン信頼と呼ばれる新しい選択基準を提案し, 次のトークン分布をどの程度増幅するかを計測する。
本手法は,現在最高の出力スコアベース基準(arXiv:2503.34567)と比較して,3 LLMのステアリング性能を52.52%向上することを示す。
興味深いことに、Delta Token Confidence の高い機能を選択した後、解釈可能性とユーティリティの相関は消滅する(tau b approx 0)。
このことは、最も効果的なステアリング機能に対する解釈可能性とユーティリティの相違をさらに強調する。
関連論文リスト
- Mechanistic Indicators of Steering Effectiveness in Large Language Models [3.635648354808971]
アクティベーションベースのステアリングにより、大規模言語モデルでは、トレーニングをせずに中間的アクティベーションに介入することで、ターゲットとなる振る舞いを表現できる。
広く使われているにもかかわらず、操舵が成功または失敗する際の機械的要因はいまだに理解されていない。
ステアリングの信頼性を内部モデル信号を用いて診断できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-02-02T06:56:22Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - A Comparative Analysis of Sparse Autoencoder and Activation Difference in Language Model Steering [0.0]
我々は、冗長な特徴を排除し、単一の最も関連性の高いSAE潜伏者(top-1)に焦点を当てることを提案する。
推論に関連付けられたSAE潜伏剤の操舵は、ステップバイステップの数学的推論を確実に引き起こすことを示す。
その結果,SAEは数学推論ベンチマークにおいて平均アクティベーション差法より優れており,IF-Eval上での性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-09-24T08:31:31Z) - Personality as a Probe for LLM Evaluation: Method Trade-offs and Downstream Effects [0.6087817758152709]
本稿では,ビッグファイブ特性を用いたパーソナリティコントロールの体系的研究について述べる。
トラトレベルの分析では、オープン性はICLに最も耐性のある、独特な挑戦であり、同意性を示している。
Gemma-2-2B-ITとLLaMA-3-8B-Instructの実験により明らかなトレードオフが明らかになった。
論文 参考訳(メタデータ) (2025-09-05T04:19:15Z) - CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection [0.0]
提案するCorrSteerは,サンプルの正しさとSAEのアクティベーションを推論時に生成したトークンから関連付けて特徴を選択する。
我々の研究は、言語モデルアプリケーション間での自動SAEステアリングのための効果的でスケーラブルなアプローチとして相関ベースの選択を確立する。
論文 参考訳(メタデータ) (2025-08-18T00:01:42Z) - Feature Extraction and Steering for Enhanced Chain-of-Thought Reasoning in Language Models [48.40096116617163]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)技術を用いて推論と数学的問題を解く能力を示す。
この研究はDeepSeek-R1の深い思考パラダイムにインスパイアされ、外部データセットを使わずにLCMの推論能力を高めるためにステアリング技術を利用している。
論文 参考訳(メタデータ) (2025-05-21T15:17:59Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - Tailoring Self-Rationalizers with Multi-Reward Distillation [88.95781098418993]
大規模言語モデル(LM)は、質問応答を支援する自由テキスト論理を生成することができる。
そこで本研究では,下流タスク性能を改善するための理性理論を,小規模のLMで生成する。
提案手法であるMaRioは,マルチリワード条件付き自己有理化アルゴリズムである。
論文 参考訳(メタデータ) (2023-11-06T00:20:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。