論文の概要: Selection-Aware Diagnostics for Chain-of-Thought Answer Hijacking
- arxiv url: http://arxiv.org/abs/2606.04717v1
- Date: Wed, 03 Jun 2026 10:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.69051
- Title: Selection-Aware Diagnostics for Chain-of-Thought Answer Hijacking
- Title(参考訳): チェーン・オブ・ソート・アンサーハイジャックにおける選択型診断法
- Authors: Jianwei Tai,
- Abstract要約: チェーン・オブ・ソート(CoT)応答ハイジャックのための制御された数値プロキシについて検討した。
Across Qwen2.5-7B and Llama3-8B on GSM8K few-shot, puzzle, and sycophant hijacks, three few-shot/puzzle cells pass confirmedatory $K=1$ localization。
選択対応50/50バンドバリデーションは、Qwen-puzzleの+32.6、+45.1、+17.7の帯域外ギャップを保留する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a controlled numeric proxy for chain-of-thought (CoT) answer hijacking, motivated by attacks in which benign-looking reasoning steers a harmful final answer. CoT wrappers on GSM8K and MATH-500 flip final answers away from gold labels. Rather than treating activation patching as clean-trace restoration, we ask where hijacked trajectories are fragile and whether recovery depends on a same-problem clean source. Across Qwen2.5-7B and Llama3-8B on GSM8K few-shot, puzzle, and sycophant hijacks, three few-shot/puzzle cells pass confirmatory $K{=}1$ localization after Bonferroni correction. A selection-aware 50/50 band validation preserves held-out in-band minus out-of-band gaps of +32.6, +45.1, and +17.7 points for Qwen-puzzle, Llama3-fewshot, and Llama3-puzzle, while exact $\Lstar$ agreement is much less stable. Qwen-fewshot remains exploratory, and sycophant cells are temporal-diffuse under short patches. A BF16 Qwen-puzzle full-band sweep preserves the band signal ($n{=}30$, spread 0.33 at $K{=}1$, peak layer 20), supporting the conclusion that the band is not only an INT4 artifact. Fixed-hook GSM8K reruns preserve recovery in both primary puzzle cells: Qwen-puzzle recovers 47.0\% at $n{=}100$ (47/100; Wilson 95\% CI [37.5\%, 56.7\%]), while Llama3-puzzle recovers 39.0\% at $n{=}100$ (39/100; [30.0\%, 48.8\%]). Frozen transfer to MATH-500 recovers 26.0\% of qualified cases in the largest fixed-transfer run (13/50; Wilson 95\% CI [15.9\%, 39.6\%]). Source controls change the mechanism interpretation. Paired bootstraps give finite-sample non-separation between clean and random sources in Qwen-fewshot (+3.0 points, 95\% CI [-18.2,+27.3]) and Llama3-puzzle at expanded $n{=}60$ (clean--random -8.3 [-21.7,+5.0]), while Llama3-fewshot is content-mediated (+40.0 [+16.7,+60.0]).
- Abstract(参考訳): チェーン・オブ・ソート(CoT)応答ハイジャックのための制御された数値プロキシについて検討した。
GSM8KとMATH-500のCoTラッパーは、ゴールドレーベルから最終回答を取り除いた。
アクティベーションパッチをクリーントラス修復として扱う代わりに、ハイジャックされた軌跡が脆弱な場所と、回復が同じプロブレムクリーンソースに依存するかどうかを問う。
Qwen2.5-7B と Llama3-8B は GSM8K の少数ショット、パズル、サイコファント・ヒジャックで、ボニフェロニ補正後に3つの複数ショット/プラグセルが認証された$K{=}1$のローカライゼーションをパスする。
選択対応の50/50バンドバリデーションでは、Qwen-puzzle、Llama3-fewshot、Llama3-puzzleに対する+32.6、+45.1、+17.7の帯域外ギャップが保持される。
Qwen-fewshotは探索的であり、sycophant細胞は短いパッチの下で時間的に拡散する。
BF16Qwen-puzzleフルバンドスイープは、バンド信号(n{=}30$, spread 0.33 at $K{=}1$, peak layer20)を保存し、バンドがINT4アーティファクトではないという結論を支持する。
Qwen-puzzle reruns 47.0\% at $n{=}100$ (47/100; Wilson 95\% CI [37.5\%, 56.7\%] 、Llama3-puzzle reruns 39.0\% at $n{=}100$ (39/100; [30.0\%, 48.8\%] である。
MATH-500への凍結移行は、最大の固定トランスファーラン(13/50; Wilson 95\% CI [15.9\%, 39.6\%])の26.0\%を回復させる。
ソースコントロールはメカニズムの解釈を変更する。
Paired bootstraps は Qwen-fewshot (+3.0 point, 95\% CI [-18.2,+27.3]) と Llama3-puzzle at expand $n{=}60$ (clean-random -8.3 [-21.7,+5.0]) のクリーンソースとランダムソースの間の有限サンプルの非分離を与える。
関連論文リスト
- Right Makes Might: Aligning Verified Hidden States Empowers RL Reasoning [55.264863369127774]
現在の方法では、それぞれの正しいロールアウトを単一の報酬ビットに減らし、隠れた状態間で共有される幾何学的構造を無視している。
本稿では,RLトレーニングにおけるアンカートークンにおける正ロールアウトの最終層を,トレーニングと推論の両方においてゼロオーバーヘッドで整列する補助損失関数Hidden-Alignを提案する。
8つの数学的推論ベンチマークでは、Hidden-AlignはDAPOベースラインの平均パス@1をQwen3-1.7B, 4B, 14Bで3.8, 6.2, 5.4ポイント改善し、3つのスケールで一貫したパス@kゲインを得る。
論文 参考訳(メタデータ) (2026-06-02T06:51:15Z) - REPOT: Recoverable Program-of-Thought via Checkpoint Repair [0.03038255798961237]
One-shot Program-of-Thought (PoT) はプリミティブアクションプランを印刷するPythonプログラムを出力する。
決定論的に検証されたリプレイであるRePoTを紹介します。
RePoTは4つの閉じたモデル構成でPoTを+3から+11ppで打ち負かす。
論文 参考訳(メタデータ) (2026-05-28T15:03:17Z) - The Chain Holds, the Answer Folds: Trace-Answer Dissociation in Reasoning Models Under Adversarial Pressure [8.86745721473138]
推論モデルはシングルターンベンチマークで評価されるが、マルチターンダイアログにデプロイされる。
われわれはこの不信な降伏(UC)を2ドル(約2万2000円)のラテント・ヴァース・ビヘイビア・フレームワークで分離し、指標のフリップレートとシングルターンプローブの両方を見逃す。
論文 参考訳(メタデータ) (2026-05-27T20:41:08Z) - What Makes a Medical Checker Trainable? Diagnosing Signal Collapse and Reward Hacking in Checker-Guided RAG for Biomedical QA [6.163604976615509]
医療RAGはエビデンスベースのクレームを必要とするため、クレームレベルのNLIチェッカーを検索強化されたRLに接続するのは直感的である。
NLIチェッカーのバックエンドをGRPO訓練医療RAGエージェント内のプロセス報酬として比較した。
論文 参考訳(メタデータ) (2026-05-25T16:06:06Z) - Constraint-Anchored Attribution: Feasibility-Certified Counterfactuals and Bonferroni-PAC Sufficient Subsets for Neural CO Policies [0.0]
LP-レラクゼーション双対による制約家族による決定を分解するニューラル・オプティマイゼーション(CO)政策への帰属法を提案する。
LP-anchored $-attribution is not the CF- derived signal。
論文 参考訳(メタデータ) (2026-05-24T19:46:30Z) - The Last Word Often Wins: A Format Confound in Chain-of-Thought Corruption Studies [0.0]
補正研究は、どのステップが計算上重要なのかを、ステップが破損した場合の精度損失から推定する。
ベンチマークチェーンが明確な終端応答ラインに終止符を打つと、これらのテストは中間計算を行う場所ではなく、主に空腹者の配置を計測する。
論文 参考訳(メタデータ) (2026-05-11T16:26:50Z) - ZenBrain: A Neuroscience-Inspired 7-Layer Memory Architecture for Autonomous AI Systems [51.56484100374058]
LongMemEval-500では、ZenBrainは長いコンテキストのオラクルのバイナリ・ジャッジの精度を4.5pp以内と一致させる。
ZenBrainは7層の神経科学にインスパイアされたメモリアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-26T20:39:19Z) - Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away [97.11976870616273]
本稿では,安全回復を目的ではなく満足度の高い制約として扱う軽量な推論時防衛法を提案する。
6つのオープンソースMLRMと4つのjailbreakベンチマークで評価した結果、SafeThinkは攻撃成功率を30~60%削減しました。
論文 参考訳(メタデータ) (2026-02-11T18:09:17Z) - Communication-Constrained Bandits under Additive Gaussian Noise [111.06688156723018]
クライアントが学習者にコミュニケーション制約のあるフィードバックを提供する分散マルチアームバンディットについて検討する。
我々は、この下限を小さな加法係数にマッチさせるマルチフェーズ帯域幅アルゴリズム、$mathtUEtext-UCB++$を提案する。
論文 参考訳(メタデータ) (2023-04-25T09:31:20Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。