論文の概要: Control Reinforcement Learning: Interpretable Token-Level Steering of LLMs via Sparse Autoencoder Features
- arxiv url: http://arxiv.org/abs/2602.10437v2
- Date: Thu, 12 Feb 2026 02:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 14:31:53.465628
- Title: Control Reinforcement Learning: Interpretable Token-Level Steering of LLMs via Sparse Autoencoder Features
- Title(参考訳): 制御強化学習:スパースオートエンコーダ機能によるLLMのトケレベルステアリングの解釈
- Authors: Seonglae Cho, Zekun Wu, Adriano Koshiyama,
- Abstract要約: Control Reinforcement Learningは、各トークンでステアリングするためのSAE機能を選択するポリシーをトレーニングし、解釈可能な介入ログを生成する。
Adaptive Feature Maskingは、単一機能解釈性を維持しながら、多様な機能発見を促進する。
MMLU、BBQ、GSM8K、HarmBench、XSTestにわたるGemma 2Bでは、CRLは、トークン単位の介入ログを提供しながら改善されている。
- 参考スコア(独自算出の注目度): 1.5874067490843806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) decompose language model activations into interpretable features, but existing methods reveal only which features activate, not which change model outputs when amplified. We introduce Control Reinforcement Learning (CRL), which trains a policy to select SAE features for steering at each token, producing interpretable intervention logs: the learned policy identifies features that change model outputs when amplified. Adaptive Feature Masking encourages diverse feature discovery while preserving singlefeature interpretability. The framework yields new analysis capabilities: branch point tracking locates tokens where feature choice determines output correctness; critic trajectory analysis separates policy limitations from value estimation errors; layer-wise comparison reveals syntactic features in early layers and semantic features in later layers. On Gemma 2 2B across MMLU, BBQ, GSM8K, HarmBench, and XSTest, CRL achieves improvements while providing per-token intervention logs. These results establish learned feature steering as a mechanistic interpretability tool that complements static feature analysis with dynamic intervention probes
- Abstract(参考訳): スパースオートエンコーダ (SAEs) は言語モデルのアクティベーションを解釈可能な機能に分解するが、既存のメソッドはどの機能がアクティベートするかのみを明らかにする。
制御強化学習(CRL: Control Reinforcement Learning)を導入し,各トークンでのステアリング,解釈可能な介入ログの生成,すなわち増幅時にモデル出力を変更する特徴の識別を行う。
Adaptive Feature Maskingは、単一機能解釈性を維持しながら、多様な機能発見を促進する。
ブランチポイントトラッキングは、機能選択が出力の正確性を決定するトークンを見つける; 批判的軌道分析は、ポリシーの制限と値推定エラーを分離する; レイヤワイド比較は、初期層の構文的特徴と後層のセマンティックな特徴を明らかにする。
MMLU、BBQ、GSM8K、HarmBench、XSTestにわたるGemma 2Bでは、CRLは、トークン単位の介入ログを提供しながら改善されている。
これらの結果から,動的介入プローブを用いた静的特徴解析を補完する機械的解釈可能性ツールとしての学習的特徴ステアリングが確立された。
関連論文リスト
- Step-Level Sparse Autoencoder for Reasoning Process Interpretation [48.99201531966593]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)推論を通じて、強力な複雑な推論機能を実現している。
本稿では,ステップレベルスパースオートエンコーダ (SSAE) を提案する。
複数の基本モデルと推論タスクの実験により,抽出した特徴の有効性が示された。
論文 参考訳(メタデータ) (2026-03-03T14:25:02Z) - Explaining AutoClustering: Uncovering Meta-Feature Contribution in AutoML for Clustering [0.6487259764989486]
AutoClusteringメソッドは、データセットのメタ機能よりもメタ学習を活用することが多い。
これにより信頼性、バイアス診断、効率的なメタ機能エンジニアリングが制限される。
本研究は、教師なし学習自動化における意思決定透明性を高めるための実践的基盤を提供する。
論文 参考訳(メタデータ) (2026-02-20T17:01:25Z) - Mechanistic Knobs in LLMs: Retrieving and Steering High-Order Semantic Features via Sparse Autoencoders [8.188989044347595]
意味論的に解釈可能な内部特徴の検索とステアリングのためのスパースオートエンコーダベースのフレームワークを提案する。
本研究では,ビッグファイブの性格特性をケーススタディとして用いて,モデル行動の正確かつ双方向なステアリングを可能にすることを実証する。
論文 参考訳(メタデータ) (2026-01-06T12:40:37Z) - Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs [49.66344956133349]
推論能力は、大規模な(ビジョン)言語モデルのための推論時間性能と強化学習(RL)トレーニングの両方を形作る。
本稿では,戦略的文脈化のための潜在変数をモデルに付与する新しい潜在変調フレームワークであるReasoning Paletteを提案する。
論文 参考訳(メタデータ) (2025-12-19T03:32:53Z) - SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks [0.0]
SALVEは機械的解釈可能性とモデル編集を橋渡しするフレームワークである。
私たちは、監督なしでスパースでモデルネイティブな機能ベースを学びます。
Grad-FAM(英語版)によりこれらの特徴を検証した。
論文 参考訳(メタデータ) (2025-12-17T20:06:03Z) - ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning [51.133569963553576]
ssTokenは自己変調されたセマンティックなToken Selectionアプローチである。
自己変調の選択とセマンティック・アウェアの選択の両方が、フルデータの微調整よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-21T03:21:04Z) - Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文 参考訳(メタデータ) (2025-08-03T23:48:46Z) - Provable In-Context Learning of Nonlinear Regression with Transformers [66.99048542127768]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。
最近の研究はICLの背後にあるトレーニングのダイナミクスを積極的に探求しており、その多くは比較的単純なタスクに重点を置いている。
本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文 参考訳(メタデータ) (2025-07-28T00:09:28Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - FADE: Why Bad Descriptions Happen to Good Features [14.00042287629001]
FADE: 特徴アライメントを記述評価に導入する。
FADEは、機能間アライメントを自動的に評価するためのスケーラブルなフレームワークである。
既存のオープンソース機能記述を分析し,自動解釈可能性パイプラインの重要なコンポーネントを評価するためにFADEを適用した。
論文 参考訳(メタデータ) (2025-02-24T09:28:35Z) - Analyze Feature Flow to Enhance Interpretation and Steering in Language Models [3.8498574327875947]
本研究では,スパースオートエンコーダによって発見される特徴を,大規模言語モデルの連続的な層にわたって体系的にマッピングする手法を提案する。
データフリーなコサイン類似性技術を使用することで、各ステージで特定の機能が持続、変換、あるいは最初に現れるかを追跡できる。
論文 参考訳(メタデータ) (2025-02-05T09:39:34Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。