論文の概要: Control Reinforcement Learning: Token-Level Mechanistic Analysis via Learned SAE Feature Steering
- arxiv url: http://arxiv.org/abs/2602.10437v1
- Date: Wed, 11 Feb 2026 02:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.394207
- Title: Control Reinforcement Learning: Token-Level Mechanistic Analysis via Learned SAE Feature Steering
- Title(参考訳): 制御強化学習:学習SAE機能ステアリングによるトークンレベル力学解析
- Authors: Seonglae Cho, Zekun Wu, Adriano Koshiyama,
- Abstract要約: Control Reinforcement Learningは、各トークンでステアリングするためのSAE機能を選択するポリシーをトレーニングし、解釈可能な介入ログを生成する。
MMLU、BBQ、GSM8K、HarmBench、XSTestにまたがるGemma-2 2Bでは、CRLは、トークン毎の介入ログを提供しながら改善されている。
- 参考スコア(独自算出の注目度): 1.5874067490843806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) decompose language model activations into interpretable features, but existing methods reveal only which features activate, not which change model outputs when amplified. We introduce Control Reinforcement Learning (CRL), which trains a policy to select SAE features for steering at each token, producing interpretable intervention logs: the learned policy identifies features that change model outputs when amplified. Adaptive Feature Masking encourages diverse feature discovery while preserving singlefeature interpretability. The framework yields new analysis capabilities: branch point tracking locates tokens where feature choice determines output correctness; critic trajectory analysis separates policy limitations from value estimation errors; layer-wise comparison reveals syntactic features in early layers and semantic features in later layers. On Gemma-2 2B across MMLU, BBQ, GSM8K, HarmBench, and XSTest, CRL achieves improvements while providing per-token intervention logs. These results establish learned feature steering as a mechanistic interpretability tool that complements static feature analysis with dynamic intervention probes
- Abstract(参考訳): スパースオートエンコーダ (SAEs) は言語モデルのアクティベーションを解釈可能な機能に分解するが、既存のメソッドはどの機能がアクティベートするかのみを明らかにする。
制御強化学習(CRL: Control Reinforcement Learning)を導入し,各トークンでのステアリング,解釈可能な介入ログの生成,すなわち増幅時にモデル出力を変更する特徴の識別を行う。
Adaptive Feature Maskingは、単一機能解釈性を維持しながら、多様な機能発見を促進する。
ブランチポイントトラッキングは、機能選択が出力の正確性を決定するトークンを見つける; 批判的軌道分析は、ポリシーの制限と値推定エラーを分離する; レイヤワイド比較は、初期層の構文的特徴と後層のセマンティックな特徴を明らかにする。
MMLU、BBQ、GSM8K、HarmBench、XSTestにまたがるGemma-2 2Bでは、CRLは、トークン毎の介入ログを提供しながら改善されている。
これらの結果から,動的介入プローブを用いた静的特徴解析を補完する機械的解釈可能性ツールとしての学習的特徴ステアリングが確立された。
関連論文リスト
- Mechanistic Knobs in LLMs: Retrieving and Steering High-Order Semantic Features via Sparse Autoencoders [8.188989044347595]
意味論的に解釈可能な内部特徴の検索とステアリングのためのスパースオートエンコーダベースのフレームワークを提案する。
本研究では,ビッグファイブの性格特性をケーススタディとして用いて,モデル行動の正確かつ双方向なステアリングを可能にすることを実証する。
論文 参考訳(メタデータ) (2026-01-06T12:40:37Z) - SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks [0.0]
SALVEは機械的解釈可能性とモデル編集を橋渡しするフレームワークである。
私たちは、監督なしでスパースでモデルネイティブな機能ベースを学びます。
Grad-FAM(英語版)によりこれらの特徴を検証した。
論文 参考訳(メタデータ) (2025-12-17T20:06:03Z) - Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文 参考訳(メタデータ) (2025-08-03T23:48:46Z) - FADE: Why Bad Descriptions Happen to Good Features [14.00042287629001]
FADE: 特徴アライメントを記述評価に導入する。
FADEは、機能間アライメントを自動的に評価するためのスケーラブルなフレームワークである。
既存のオープンソース機能記述を分析し,自動解釈可能性パイプラインの重要なコンポーネントを評価するためにFADEを適用した。
論文 参考訳(メタデータ) (2025-02-24T09:28:35Z) - Analyze Feature Flow to Enhance Interpretation and Steering in Language Models [3.8498574327875947]
本研究では,スパースオートエンコーダによって発見される特徴を,大規模言語モデルの連続的な層にわたって体系的にマッピングする手法を提案する。
データフリーなコサイン類似性技術を使用することで、各ステージで特定の機能が持続、変換、あるいは最初に現れるかを追跡できる。
論文 参考訳(メタデータ) (2025-02-05T09:39:34Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。