論文の概要: Enhancing LLM Steering through Sparse Autoencoder-Based Vector Refinement
- arxiv url: http://arxiv.org/abs/2509.23799v2
- Date: Fri, 03 Oct 2025 11:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.905125
- Title: Enhancing LLM Steering through Sparse Autoencoder-Based Vector Refinement
- Title(参考訳): スパースオートエンコーダを用いたベクトル微細化によるLCMステアリングの強化
- Authors: Anyi Wang, Xuansheng Wu, Dong Shu, Yunpu Ma, Ninghao Liu,
- Abstract要約: 既存のステアリング手法は、行動情報を学習するために大規模なデータセットに依存している。
本稿では,SAAEを利用してステアリングベクトルを意味的に識別・拡張するスパースオートエンコーダ(SAE-RSV)によるステアリングベクトルの精細化について紹介する。
本フレームワークでは、まず、SAEが提供するセマンティクスに基づいてタスク関連機能を取り除き、そのセマンティクスの類似性を通じて、小さなデータセットから欠落したタスク関連機能を強化する。
- 参考スコア(独自算出の注目度): 31.282134977964976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Steering has emerged as a promising approach in controlling large language models (LLMs) without modifying model parameters. However, most existing steering methods rely on large-scale datasets to learn clear behavioral information, which limits their applicability in many real-world scenarios. The steering vectors extracted from small dataset often contain task-irrelevant noising features, which degrades their effectiveness. To refine the steering vectors learned from limited data, we introduce Refinement of Steering Vector via Sparse Autoencoder (SAE-RSV) that leverages SAEs to semantically denoise and augment the steering vectors. In our framework, we first remove task-irrelevant features according to their semantics provided by SAEs, and then enrich task-relevant features missing from the small dataset through their semantic similarity to the identified relevant features. Extensive experiments demonstrate that the proposed SAE-RSV substantially outperforms all the baseline methods including supervised fine-tuning. Our findings show that effective steering vector can be constructed from limited training data by refining the original steering vector through SAEs.
- Abstract(参考訳): Steeringは、モデルパラメータを変更することなく、大きな言語モデル(LLM)を制御するための有望なアプローチとして登場した。
しかし、既存のステアリング手法の多くは、多くの実世界のシナリオで適用性を制限する明確な行動情報を学ぶために、大規模なデータセットに依存している。
小さなデータセットから抽出されたステアリングベクトルは、しばしばタスク非関連ノイズ発生特性を含み、その効果を低下させる。
限られたデータから得られたステアリングベクターを改良するために,SAAEを利用してステアリングベクターを意味的に認知・拡張するスパースオートエンコーダ(SAE-RSV)を用いてステアリングベクターのリファインメントを導入する。
本フレームワークでは、まず、SAEが提供するセマンティクスに基づいてタスク関連機能を取り除き、そのセマンティクスの類似性を通じて、小さなデータセットから欠落したタスク関連機能を強化する。
広範囲な実験により、提案されたSAE-RSVは、教師付き微調整を含む全てのベースライン法を著しく上回っていることが示された。
本研究は,SAEを用いて元のステアリングベクトルを精錬することにより,限られたトレーニングデータから効果的なステアリングベクトルを構築することができることを示す。
関連論文リスト
- SAE-SSV: Supervised Steering in Sparse Representation Spaces for Reliable Control of Language Models [41.553639748766784]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では,スパースで解釈可能な表現空間で動作する新しい教師付きステアリング手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:57Z) - Feature Extraction and Steering for Enhanced Chain-of-Thought Reasoning in Language Models [48.40096116617163]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)技術を用いて推論と数学的問題を解く能力を示す。
この研究はDeepSeek-R1の深い思考パラダイムにインスパイアされ、外部データセットを使わずにLCMの推論能力を高めるためにステアリング技術を利用している。
論文 参考訳(メタデータ) (2025-05-21T15:17:59Z) - Denoising Concept Vectors with Sparse Autoencoders for Improved Language Model Steering [41.588589098740755]
線形概念ベクトルはLLMを効果的に操るが、既存の手法はステアリングの堅牢性を損なう多様なデータセットのノイズの多い特徴に悩まされる。
Sparse Autoencoder-Denoized Concept Vectors (SDCV) を提案する。
論文 参考訳(メタデータ) (2025-05-21T02:45:11Z) - ExpertSteer: Intervening in LLMs through Expert Knowledge [86.98098988779809]
アクティベーションステアリングは、大規模言語モデルの生成プロセスを制御するための有望な方法を提供する。
本稿では、任意の専門的モデルを用いてステアリングベクトルを生成する新しいアプローチであるExpertSteerを提案する。
3つのLSMを4つの異なる領域にわたる15の人気のあるベンチマークで包括的な実験を行う。
論文 参考訳(メタデータ) (2025-05-18T08:55:46Z) - Steering Risk Preferences in Large Language Models by Aligning Behavioral and Neural Representations [4.029252551781513]
ステアリングベクトルを明らかにするための原理的アプローチを提案する。
我々は,大規模言語モデルから潜在リスクの選好を抽出することに注力する。
得られた操舵ベクトルが目標動作に合わせてLLM出力を正常かつ確実に変調することを示す。
論文 参考訳(メタデータ) (2025-05-16T18:23:10Z) - Interpretable Steering of Large Language Models with Feature Guided Activation Additions [4.496738719682736]
本稿では,新しいアクティベーションステアリング法であるFeature Guided Activation Additions (FGAA)を紹介する。
スパースオートエンコーダ(SAE)の潜在空間で操作することにより、FGAAは正確なステアリングベクトルを構成する。
Gemma-2-2B と Gemma-2-9B モデルの評価は、FGAA が既存のステアリング法より優れていることを示す。
論文 参考訳(メタデータ) (2025-01-17T02:55:23Z) - Improving Steering Vectors by Targeting Sparse Autoencoder Features [2.4188584949331053]
SAE-Targeted Steering (SAE-TS) という改良されたステアリング法を開発し、意図しない副作用を最小限に抑えながら、特定のSAE特徴を標的としたステアリングベクトルを求める。
SAE-TSは,様々なタスクで評価すると,CAAとSAEの特徴的ステアリングよりもコヒーレンスとステアリング効果のバランスが良いことを示す。
論文 参考訳(メタデータ) (2024-11-04T15:46:20Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。