論文の概要: Auditing CoT Answer-Hijack Patches: Source-Control Certificates with Type-I Guarantees
- arxiv url: http://arxiv.org/abs/2606.04717v2
- Date: Wed, 10 Jun 2026 09:03:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.318837
- Title: Auditing CoT Answer-Hijack Patches: Source-Control Certificates with Type-I Guarantees
- Title(参考訳): CoTアンサー・ヒジャックパッチの監査:I型保証付きソース・コントロル証明書
- Authors: Jianwei Tai,
- Abstract要約: Chain-of- Thought (CoT) の回答ハイジャックテンプレートは GSM8K または MATH-500 上で 7B-8B 言語モデルの最終数値を反転させることができる。
クリーンソースパッチの成功は、しばしば、パッチされたアクティベーションが回復したコンテンツを運ぶ証拠として読まれる。
我々は,各候補パッチを事前登録されたType-I保証付きソース制御証明書に変換する監査を構築する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) answer-hijack templates can flip the final numeric answer of a 7B-8B language model on GSM8K or MATH-500 even when the visible reasoning trace looks fluent. Activation patching is the standard probe for locating where this hijack can be undone, and a successful clean-source patch is often read as evidence that the patched activation carries the recovered content. We show that this reading is unsound: clean-only localization profiles (peak, spread, thresholded band) underidentify the frozen-hook source contrast, and the clean-only profile is an intervention map, not a mediation certificate. We then construct an audit that turns each candidate patch into a source-control certificate with a pre-registered Type-I guarantee. The certificate runs in three stages: SELECT (clean-source band sweep with permutation calibration and held-out validation), FREEZE (lock the hook), and AUDIT (paired-bootstrap source contrasts at the frozen hook). It emits an incorrect mechanism label with probability at most alpha = alpha_sel + alpha_audit under sample-split disjointness. A matching-rate sample-complexity theorem (n_star = Theta(Delta^{-2} log(1/alpha))) bounds the audit cost. On Qwen2.5-7B and Llama3-8B, three few-shot/puzzle cells pass confirmatory K=1 localization with held-out gaps +32.6, +45.1, +17.7; fixed-hook reruns recover 47.0% (Qwen-puzzle) and 39.0% (Llama3-puzzle) at n=100; frozen MATH-500 transfer recovers 26.0%. After audit, Llama3-PZ and Qwen-PZ are identity-light with moderate magnitude (Qwen-PZ also layer-sensitive); Llama3-FS is a single-seed moderate-positive candidate (multi-seed replication queued); Qwen-FS is exploratory non-separation with a layer-sensitive flag. The method is a diagnostic auditing protocol, not an adaptive safety defense.
- Abstract(参考訳): Chain-of- Thought (CoT) の回答ハイジャックテンプレートは、可視的推論トレースが流動的に見える場合でも、GSM8KまたはMATH-500上で7B-8B言語モデルの最終的な数値応答を反転させることができる。
アクティベーションパッチは、このハイジャックを解除できる場所を特定するための標準プローブであり、クリーンソースパッチは、パッチされたアクティベーションが回復したコンテンツを運ぶ証拠としてしばしば読まれる。
クリーンオンリーのローカライゼーションプロファイル(ピーク,スプレッド,しきい値付き帯域)はフリーズフックソースコントラストを同定し,クリーンオンリーのプロファイルは仲介証明書ではなく介入マップであることを示す。
次に、各候補パッチを登録済みのType-I保証付きソース制御証明書に変換する監査を構築します。
証明書は、SELECT(置換キャリブレーションとホールドアウトバリデーションを備えたクリーンソースバンドスイープ)、FREEZE(フックをロック)、AUDIT(冷凍フックのペアリングブートストラップソースコントラスト)の3つのステージで実行される。
サンプル分割不整合の下で、確率が最大で α = α_sel + α_audit の不正なメカニズムラベルを出力する。
マッチングレートのサンプル複雑度定理(n_star = Theta(Delta^{-2} log(1/alpha))は監査コストを制限している。
Qwen2.5-7B と Llama3-8B では、3つの小銃/小銃細胞がK=1 位置を保留ギャップ+32.6, +45.1, +17.7 で通過し、固定フック再走は 47.0% (Qwen-puzzle) と 39.0% (Llama3-puzzle) の n=100 で回復し、凍結MATH-500 転移は 26.0% で回復する。
監査後、Llama3-PZとQwen-PZは中等級のアイデンティティライト(Qwen-PZも層感度)、Llama3-FSは中等級の候補(マルチシードレプリケーションキュー)、Qwen-FSは層感度フラグを持つ探索的非分離である。
この方法は、適応型安全防衛ではなく、診断監査プロトコルである。
関連論文リスト
- Right Makes Might: Aligning Verified Hidden States Empowers RL Reasoning [55.264863369127774]
現在の方法では、それぞれの正しいロールアウトを単一の報酬ビットに減らし、隠れた状態間で共有される幾何学的構造を無視している。
本稿では,RLトレーニングにおけるアンカートークンにおける正ロールアウトの最終層を,トレーニングと推論の両方においてゼロオーバーヘッドで整列する補助損失関数Hidden-Alignを提案する。
8つの数学的推論ベンチマークでは、Hidden-AlignはDAPOベースラインの平均パス@1をQwen3-1.7B, 4B, 14Bで3.8, 6.2, 5.4ポイント改善し、3つのスケールで一貫したパス@kゲインを得る。
論文 参考訳(メタデータ) (2026-06-02T06:51:15Z) - REPOT: Recoverable Program-of-Thought via Checkpoint Repair [0.03038255798961237]
One-shot Program-of-Thought (PoT) はプリミティブアクションプランを印刷するPythonプログラムを出力する。
決定論的に検証されたリプレイであるRePoTを紹介します。
RePoTは4つの閉じたモデル構成でPoTを+3から+11ppで打ち負かす。
論文 参考訳(メタデータ) (2026-05-28T15:03:17Z) - The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure [8.86745721473138]
推論モデルはシングルターンベンチマークで評価されるが、マルチターンダイアログにデプロイされる。
われわれはこの不信な降伏(UC)を2ドル(約2万2000円)のラテント・ヴァース・ビヘイビア・フレームワークで分離し、指標のフリップレートとシングルターンプローブの両方を見逃す。
論文 参考訳(メタデータ) (2026-05-27T20:41:08Z) - What Makes a Medical Checker Trainable? Diagnosing Signal Collapse and Reward Hacking in Checker-Guided RAG for Biomedical QA [6.163604976615509]
医療RAGはエビデンスベースのクレームを必要とするため、クレームレベルのNLIチェッカーを検索強化されたRLに接続するのは直感的である。
NLIチェッカーのバックエンドをGRPO訓練医療RAGエージェント内のプロセス報酬として比較した。
論文 参考訳(メタデータ) (2026-05-25T16:06:06Z) - Constraint-Anchored Attribution: Feasibility-Certified Counterfactuals and Bonferroni-PAC Sufficient Subsets for Neural CO Policies [0.0]
LP-レラクゼーション双対による制約家族による決定を分解するニューラル・オプティマイゼーション(CO)政策への帰属法を提案する。
LP-anchored $-attribution is not the CF- derived signal。
論文 参考訳(メタデータ) (2026-05-24T19:46:30Z) - The Last Word Often Wins: A Format Confound in Chain-of-Thought Corruption Studies [0.0]
補正研究は、どのステップが計算上重要なのかを、ステップが破損した場合の精度損失から推定する。
ベンチマークチェーンが明確な終端応答ラインに終止符を打つと、これらのテストは中間計算を行う場所ではなく、主に空腹者の配置を計測する。
論文 参考訳(メタデータ) (2026-05-11T16:26:50Z) - ZenBrain: A Neuroscience-Inspired 7-Layer Memory Architecture for Autonomous AI Systems [51.56484100374058]
LongMemEval-500では、ZenBrainは長いコンテキストのオラクルのバイナリ・ジャッジの精度を4.5pp以内と一致させる。
ZenBrainは7層の神経科学にインスパイアされたメモリアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-26T20:39:19Z) - Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away [97.11976870616273]
本稿では,安全回復を目的ではなく満足度の高い制約として扱う軽量な推論時防衛法を提案する。
6つのオープンソースMLRMと4つのjailbreakベンチマークで評価した結果、SafeThinkは攻撃成功率を30~60%削減しました。
論文 参考訳(メタデータ) (2026-02-11T18:09:17Z) - Communication-Constrained Bandits under Additive Gaussian Noise [111.06688156723018]
クライアントが学習者にコミュニケーション制約のあるフィードバックを提供する分散マルチアームバンディットについて検討する。
我々は、この下限を小さな加法係数にマッチさせるマルチフェーズ帯域幅アルゴリズム、$mathtUEtext-UCB++$を提案する。
論文 参考訳(メタデータ) (2023-04-25T09:31:20Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。