論文の概要: A Comparative Analysis of Sparse Autoencoder and Activation Difference in Language Model Steering
- arxiv url: http://arxiv.org/abs/2510.01246v1
- Date: Wed, 24 Sep 2025 08:31:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.750694
- Title: A Comparative Analysis of Sparse Autoencoder and Activation Difference in Language Model Steering
- Title(参考訳): スパースオートエンコーダの比較分析と言語モデルステアリングにおけるアクティベーション差
- Authors: Jiaqing Xie,
- Abstract要約: 我々は、冗長な特徴を排除し、単一の最も関連性の高いSAE潜伏者(top-1)に焦点を当てることを提案する。
推論に関連付けられたSAE潜伏剤の操舵は、ステップバイステップの数学的推論を確実に引き起こすことを示す。
その結果,SAEは数学推論ベンチマークにおいて平均アクティベーション差法より優れており,IF-Eval上での性能と一致していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse autoencoders (SAEs) have recently emerged as a powerful tool for language model steering. Prior work has explored top-k SAE latents for steering, but we observe that many dimensions among the top-k latents capture non-semantic features such as punctuation rather than semantic attributes like instructions. To address this, we propose focusing on a single, most relevant SAE latent (top-1), eliminating redundant features. We further identify a limitation in constant SAE steering, which often produces degenerate outputs such as repetitive single words. To mitigate this, we introduce a token-wise decaying steering strategy, enabling more faithful comparisons with mean activation difference baselines. Empirically, we show that steering an SAE latent associated with reasoning reliably elicits step-by-step mathematical reasoning and enhances inference quality, functionally resembling the effect of appending a guiding token. Our results demonstrate that SAEs outperform mean activation difference methods on mathematical reasoning benchmarks and match their performance on IF-Eval.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、最近、言語モデルステアリングの強力なツールとして登場した。
従来の研究は、ステアリングのためのトップkのSAEラテントを探索してきたが、トップkのラテントの中の多くの次元が、命令のような意味的属性ではなく、句読点のような非意味的な特徴を捉えている。
この問題に対処するため、我々は、冗長な特徴を排除し、単一の、最も関連性の高いSAE潜伏者(top-1)に焦点を当てることを提案する。
さらに、反復単語のような退化出力をしばしば生成する、一定のSAEステアリングにおける制限を同定する。
これを軽減するため,トークンワイドのステアリング戦略を導入し,平均アクティベーション差ベースラインとのより忠実な比較を可能にする。
実験により, 推論に関連するSAE潜伏剤の操舵が, ステップバイステップの数学的推論を確実に引き起こし, 推論品質を向上し, 誘導トークンの付加効果と機能的に類似していることが示唆された。
その結果,SAEは数学推論ベンチマークにおいて平均アクティベーション差法より優れており,IF-Eval上での性能と一致していることがわかった。
関連論文リスト
- Analysis of Variational Sparse Autoencoders [1.675385127117872]
SAEアーキテクチャに変分手法を組み込むことで,特徴構造や解釈可能性が改善されるかどうかを検討する。
本稿では,変分スパースオートエンコーダ(vSAE)を導入し,決定論的ReLUゲーティングを学習したガウス後部からのサンプリングに置き換える。
以上の結果から,SAEに対する変分法の適用は,機能的構造や解釈可能性の向上には至らないことが示唆された。
論文 参考訳(メタデータ) (2025-09-26T23:09:56Z) - ProtSAE: Disentangling and Interpreting Protein Language Models via Semantically-Guided Sparse Autoencoders [30.219733023958188]
Sparse Autoencoder (SAE) は、大規模言語モデルの機械的解釈可能性のための強力なツールとして登場した。
ProtSAEと呼ばれる意味誘導型SAEを提案する。
ProtSAEは,従来の方法と比較して,生物学的に関連性があり,隠れた特徴を解釈できることがわかった。
論文 参考訳(メタデータ) (2025-08-26T11:20:31Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z) - Ensembling Sparse Autoencoders [10.81463830315253]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。
我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。
実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T23:31:21Z) - Are Sparse Autoencoders Useful? A Case Study in Sparse Probing [6.836374436707495]
スパースオートエンコーダ(SAE)は、大言語モデル(LLM)アクティベーションで表される概念を解釈する一般的な方法である。
もう一つの証拠源は、SAEが既存のベースラインを超えて下流タスクのパフォーマンスを改善していることを示すことである。
SAEを4つの状況下でのLCM活性化の現実的なタスクに適用することで、これを検証する。
論文 参考訳(メタデータ) (2025-02-23T18:54:15Z) - SAIF: A Sparse Autoencoder Framework for Interpreting and Steering Instruction Following of Language Models [21.272449543430078]
本稿では,スパースオートエンコーダ(SAE)を利用して,大規模言語モデルにおける命令の解釈を行う新しいフレームワークを提案する。
私たちが特定した機能は、与えられた命令に合わせるために、モデル出力を効果的に操ることができます。
以上の結果から,命令追従能力は異なる命令関連SAE潜伏剤によって符号化されていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T02:11:17Z) - AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。