論文の概要: Reliable Control-Point Selection for Steering Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.02113v1
- Date: Thu, 02 Apr 2026 14:48:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.864748
- Title: Reliable Control-Point Selection for Steering Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるステアリング推論のための信頼性の高い制御点選択
- Authors: Haomin Zhuang, Hojun Yoo, Xiaonan Luo, Kehan Guo, Xiangliang Zhang,
- Abstract要約: ステアリングベクトルは、大規模言語モデルにおける推論動作を制御するためのトレーニング不要のメカニズムを提供する。
しかし、有効なベクトルを構成するには、モデルが隠した状態にある真の行動信号を特定する必要がある。
提案手法は,全ての検出された境界が真の行動信号を符号化していることを暗黙的に仮定して,チェーンオブソートトレースのキーワードマッチングによってこれらの挙動を検出する。
本研究では,コンテキスト依存的なトリガ確率を持つ事象として固有の推論動作を形式化する確率モデルを構築し,不安定な境界が操舵信号を弱めることを示す。
- 参考スコア(独自算出の注目度): 28.288321095634128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Steering vectors offer a training-free mechanism for controlling reasoning behaviors in large language models, but constructing effective vectors requires identifying genuine behavioral signals in the model's hidden states. For behaviors that can be toggled via prompts, this is straightforward. However, many reasoning behaviors -- such as self-reflection -- emerge spontaneously and resist prompt-level control. Current methods detect these behaviors through keyword matching in chain-of-thought traces, implicitly assuming that every detected boundary encodes a genuine behavioral signal. We show that this assumption is overwhelmingly wrong: across 541 keyword-detected boundaries, 93.3\% are behaviorally unstable, failing to reproduce the detected behavior under re-generation from the same prefix. We develop a probabilistic model that formalizes intrinsic reasoning behaviors as stochastic events with context-dependent trigger probabilities, and show that unstable boundaries dilute the steering signal. Guided by this analysis, we propose stability filtering, which retains only boundaries where the model consistently reproduces the target behavior. Combined with a content-subspace projection that removes residual question-specific noise, our method achieves 0.784 accuracy on MATH-500 (+5.0 over the strongest baseline). The resulting steering vectors transfer across models in the same architecture family without re-extraction, improving Nemotron-Research-Reasoning-1.5B (+5.0) and DeepScaleR-1.5B-Preview (+6.0). Code is available at https://github.com/zhmzm/stability-steering.
- Abstract(参考訳): ステアリングベクターは、大規模言語モデルにおける推論行動を制御するためのトレーニング不要なメカニズムを提供するが、効果的なベクターを構築するには、モデルの隠れた状態における真の行動信号を特定する必要がある。
プロンプトでトグルできる動作については、これは簡単です。
しかし、自己回帰のような多くの理性行動が自然に発生し、即時制御に抵抗する。
現在の方法では、チェーンオブソートトレースのキーワードマッチングを通じてこれらの振る舞いを検出し、検出された境界が真の行動信号にエンコードされていることを暗黙的に仮定している。
541のキーワード検出境界において、93.3\%は動作が不安定であり、同じプレフィックスから検出された振る舞いを再現できない。
本研究では,確率的事象と文脈依存的トリガ確率を交互に定式化する確率論的モデルを構築し,不安定な境界がステアリング信号の希薄化を示す。
この分析で導かれた安定性フィルタリングは,モデルが常に対象の振る舞いを再現する境界のみを保持する。
本手法は,MATH-500の残差ノイズを除去するコンテンツサブスペース投影と組み合わせて,MATH-500の0.784精度(最強ベースライン以上+5.0)を実現する。
その結果得られたステアリングベクトルは、再抽出することなく同じアーキテクチャ系のモデル間で転送され、Nemotron-Research-Reasoning-1.5B (+5.0)とDeepScaleR-1.5B-Preview (+6.0)が改善された。
コードはhttps://github.com/zhmzm/stability-steering.comから入手できる。
関連論文リスト
- Behavioral Steering in a 35B MoE Language Model via SAE-Decoded Probe Vectors: One Agency Axis, Not Five Traits [0.0]
我々はQwen 3.5-35B-A3Bの残流上に9個のスパースオートエンコーダ(SAE)を訓練する。
私たちは5つのエージェント的行動特性を識別し、管理するためにそれらを使用します。
論文 参考訳(メタデータ) (2026-03-17T10:05:41Z) - Internalizing LLM Reasoning via Discovery and Replay of Latent Actions [4.830503861275364]
連鎖プロセスの隠れ状態への内部化は、テスト時間計算をスケールするための非常に効率的なパラダイムとして現れている。
動的潜在軌道制御問題として推論強化を再構築するSTIR(Self-Distilled Tools for Internal Reasoning)を提案する。
論文 参考訳(メタデータ) (2026-02-04T08:44:57Z) - The Hypocrisy Gap: Quantifying Divergence Between Internal Belief and Chain-of-Thought Explanation via Sparse Autoencoders [0.0]
モデルの内部推論と最終生成との相違を定量化するために、偽犯罪ギャップを導入する。
数学的に、スパース線形プローブによって導出された内的真理信念を、潜在空間における最終的な生成軌跡と比較することにより、モデルが不誠実な振る舞いをする傾向を定量化し、検出する。
論文 参考訳(メタデータ) (2026-01-14T00:40:40Z) - How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - The 'Sure' Trap: Multi-Scale Poisoning Analysis of Stealthy Compliance-Only Backdoors in Fine-Tuned Large Language Models [10.377264470934843]
大きな言語モデルに対するバックドア攻撃は、通常、暗黙の悪意のある出力に秘密のトリガーを伴います。
我々はコンプライアンスのみのバックドアを導入し、ほぼ良質なデータセットで教師付き微調整を行い、プロンプトの小さなサブセットを任意の単一ワードトリガでサフィックスする。
本研究は, 毒性予算, 総微調整データセットサイズ, モデルサイズにまたがる, この良性ラベル中毒行動のマルチスケール解析を行った。
論文 参考訳(メタデータ) (2025-11-16T02:01:58Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。