論文の概要: Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal
- arxiv url: http://arxiv.org/abs/2605.26772v1
- Date: Tue, 26 May 2026 09:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.796956
- Title: Beyond a Single Direction: Chain-of-Thought Disrupts Simple Steering of Refusal
- Title(参考訳): 単一方向を超える: 失敗の連鎖: 拒否の単純な操り方
- Authors: Kia-Jüng Yang, Dominik Meier, Jiachen Zhao, Terry Ruas, Bela Gipp,
- Abstract要約: 大規模な推論モデルは最終的な出力を生成する前にチェーン・オブ・ソート・トレースを生成する。
LRMの拒絶は、残留ストリーム活性化とCoTで共同にコードされる。
これにより、LIMは活性化レベルの介入に対して単独でより堅牢になるが、CoTを代替表面攻撃に晒す。
- 参考スコア(独自算出の注目度): 11.231847009952496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) generate chain-of-thought (CoT) traces before producing final outputs, introducing a dynamic internal state that may complicate control mechanisms such as refusal. Unlike instruction-tuned LLMs, where refusal is mediated by a single directional subspace, refusal in large reasoning models (LRMs) additionally depends on the CoT. In DeepSeek-R1-Distill-LLaMA-8B, activation steering reverses refusal in only 39% of cases when the CoT is kept fixed, but removing the CoT entirely increases this to 70%, indicating that the CoT actively reinforces refusal. In a two-stage intervention where the model regenerates its CoT under activation steering, refusal is reversed in 94% of cases, while the resulting CoT alone retains 48% of this effect even after steering is removed. This suggests that the CoT can carry and reconstruct the compliance signal independently. These findings indicate that refusal in LRMs is jointly encoded in residual stream activations and CoT. This joint activation makes LRM more robust against activation-level interventions alone, but exposes CoT to a possible alternative surface attack.
- Abstract(参考訳): 大きな推論モデル(LRM)は最終的な出力を生成する前にチェーン・オブ・シークレット(CoT)トレースを生成し、リファリングのような制御機構を複雑にする動的な内部状態を導入する。
命令調整されたLLMとは異なり、リフレルは単一方向のサブスペースによって媒介されるが、大きな推論モデル(LRM)ではリフレルはCoTに依存する。
DeepSeek-R1-Distill-LLaMA-8Bでは、CoTが固定されている場合の39%で活性化ステアリングが拒絶されるが、CoTを完全に除去すると70%に増加し、CoTは積極的に拒絶を補強する。
モデルが活性化ステアリング下でCoTを再生する2段階の介入では、リファクションは94%のケースで逆転し、結果のCoT単独では、ステアリングが除去された後もこの効果の48%を維持している。
これは、CoTが独立してコンプライアンス信号を実行し、再構築できることを示唆している。
これらの結果から, LRMsの拒絶反応は残留ストリーム活性化とCoTに共符号化されていることが示唆された。
この共同活性化により、LIMは活性化レベルの介入に対して単独でより堅牢になるが、CoTを代替表面攻撃に曝す。
関連論文リスト
- On the Cost and Benefit of Chain of Thought: A Learning-Theoretic Perspective [32.74283120808586]
思考の連鎖(CoT)を理解するための学習理論フレームワークを開発する
我々はCoTを回答マップと中間質問を自己回帰的に生成する連鎖規則の相互作用としてモデル化する。
論文 参考訳(メタデータ) (2026-05-20T14:51:20Z) - TrigReason: Trigger-Based Collaboration between Small and Large Reasoning Models [59.83398270447905]
大規模推論モデル(LRM)は複雑なタスクにおいて高い性能を達成するが、自己回帰的推論によって高い推論遅延に悩まされる。
最近の研究は、小型共振モデル(SRM)を用いてLEM推論を高速化する。
TrigReasonは、継続的ポーリングを選択的介入で置き換えるトリガーベースの協調推論フレームワークである。
論文 参考訳(メタデータ) (2026-04-16T10:33:00Z) - Unreal Thinking: Chain-of-Thought Hijacking via Two-stage Backdoor [19.938570872083652]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)がユーザによって解釈されるように、ますます多くデプロイされている。
攻撃者はモデルの観測可能なCoTを操作して悪意ある振る舞いをすることができる。
実際には、永続的なCoTハイジャックは3つの大きな課題に直面している。
論文 参考訳(メタデータ) (2026-04-10T11:44:27Z) - Activation Steering for Aligned Open-ended Generation without Sacrificing Coherence [16.403654360036498]
ミスアライメントは、敵対的なプロンプト、良心的な微調整、創発的なミスアライメント、目標のミスジェネレーションによって引き起こされる。
最近の証拠は、いくつかの不整合挙動が活性化空間の線形構造としてコード化され、操舵によって牽引可能であることを示唆している。
これらの知見は, 世代ごとのアクティベーションの不一致を継続的に補正する軽量なランタイムディフェンスとして, アクティベーションステアリングを動機付けている。
論文 参考訳(メタデータ) (2026-04-09T12:28:22Z) - Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought? [79.86483056611105]
推論 LLM は、答えを出す前にステップバイステップの思考連鎖を生成する。
これらの推論は、その内部で発生する破壊の痕跡をどれほど堅牢にしていますか?
一定のタイミングでモデル自身のCoTを摂動させる制御された評価フレームワークを導入する。
論文 参考訳(メタデータ) (2026-02-07T10:02:58Z) - Internalizing LLM Reasoning via Discovery and Replay of Latent Actions [4.830503861275364]
連鎖プロセスの隠れ状態への内部化は、テスト時間計算をスケールするための非常に効率的なパラダイムとして現れている。
動的潜在軌道制御問題として推論強化を再構築するSTIR(Self-Distilled Tools for Internal Reasoning)を提案する。
論文 参考訳(メタデータ) (2026-02-04T08:44:57Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - CoT-Valve: Length-Compressible Chain-of-Thought Tuning [50.196317781229496]
我々はCoT-Valveと呼ばれる新しいチューニングと推論戦略を導入し、モデルが様々な長さの推論連鎖を生成できるようにする。
我々は,CoT-Valveがチェーンの制御性と圧縮性を実現し,プロンプトベース制御よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-02-13T18:52:36Z) - TD3 with Reverse KL Regularizer for Offline Reinforcement Learning from
Mixed Datasets [118.22975463000928]
エージェントが複数の行動ポリシーをロールアウトすることで収集したデータセットから学習する必要があるオフライン強化学習(RL)について考察する。
1) RL信号の最適化と行動クローニング(BC)信号の最適なトレードオフは、異なる行動ポリシーによって引き起こされる行動カバレッジの変化によって異なる状態に変化する。
本稿では,TD3アルゴリズムに基づくBC正規化器として,適応重み付き逆KL(Kulback-Leibler)分散を用いることにより,両課題に対処する。
論文 参考訳(メタデータ) (2022-12-05T09:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。