論文の概要: Large language models can learn and generalize steganographic chain-of-thought under process supervision
- arxiv url: http://arxiv.org/abs/2506.01926v1
- Date: Mon, 02 Jun 2025 17:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.678849
- Title: Large language models can learn and generalize steganographic chain-of-thought under process supervision
- Title(参考訳): 大規模言語モデルは、プロセス監視下でステガノグラフ連鎖を学習し、一般化することができる
- Authors: Joey Skaf, Luis Ibanez-Lissen, Robert McCarthy, Connor Watts, Vasil Georgiv, Hannes Whittingham, Lorena Gonzalez-Manzano, David Lindner, Cameron Tice, Edward James Young, Puria Radmard,
- Abstract要約: CoT(Chain-of- Thought)推論は意思決定プロセスに関する洞察を提供する。
CoTモニタリングは、モデルをデプロイする際のリスクを軽減するために使用できる。
負荷を含む推論トレースにおける特定の文字列の使用をペナライズすることで、モデルが代替文字列の代わりになることを示す。
- 参考スコア(独自算出の注目度): 5.173324198381261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) reasoning not only enhances large language model performance but also provides critical insights into decision-making processes, marking it as a useful tool for monitoring model intent and planning. By proactively preventing models from acting on CoT indicating misaligned or harmful intent, CoT monitoring can be used to reduce risks associated with deploying models. However, developers may be incentivized to train away the appearance of harmful intent from CoT traces, by either customer preferences or regulatory requirements. Recent works have shown that banning mention of a specific example of reward hacking, which may be done either to make CoT presentable to users or as a naive attempt to prevent the behavior, causes obfuscation of the undesired reasoning traces but the persistence of the undesired behavior. Such obfuscation threatens the reliability of CoT monitoring. However, obfuscation of reasoning can be due to its internalization to latent space computation, or its encoding within the CoT. Here, we provide an extension to these results. First, we show that penalizing the use of specific strings within load-bearing reasoning traces causes models to substitute alternative strings. Crucially, this does not alter the underlying method by which the model performs the task, demonstrating that the model can learn to steganographically encode its reasoning. We further demonstrate that models can generalize an encoding scheme. When the penalized strings belong to an overarching class, the model learns not only to substitute strings seen in training, but also develops a general encoding scheme for all members of the class which it can apply to held-out testing strings.
- Abstract(参考訳): CoT(Chain-of- Thought)推論は、大規模な言語モデルのパフォーマンスを高めるだけでなく、意思決定プロセスに対する重要な洞察も提供します。
CoTに不整合または有害な意図を示すモデルが動作することを積極的に防止することにより、CoT監視は、モデルをデプロイする際のリスクを低減するために使用することができる。
しかし、開発者はCoTトレースから有害なインテントの外観を、顧客の好みや規制要件によってトレーニングするインセンティブを受けることができる。
最近の研究は、特定の報酬ハッキングの例について言及を禁止していることを示しており、これはCoTをユーザに提示するか、あるいはその行為を防ごうとして、望ましくない推論トレースの難読化を引き起こすが、望ましくない動作の持続性を引き起こす可能性がある。
このような難読化はCoTモニタリングの信頼性を脅かす。
しかし、推論の難しさは、潜在空間計算への内部化や、CoT内での符号化に起因する可能性がある。
ここでは、これらの結果を拡張します。
まず、負荷を含む推論トレースにおける特定の文字列の使用をペナライズすることで、モデルが代替文字列の代わりになることを示す。
重要なことに、これはモデルがタスクを実行する基本的な方法を変えず、モデルがその推論を統計学的にエンコードすることを学べることを示す。
さらに、モデルが符号化スキームを一般化できることを実証する。
ペナルタイズされた文字列がオーバーアーキリングクラスに属するとき、モデルはトレーニングで見られる文字列を置換することを学ぶだけでなく、クラスの全メンバに対する一般的なエンコーディングスキームを開発し、保留試験文字列に適用できる。
関連論文リスト
- Mitigating Deceptive Alignment via Self-Monitoring [15.365589693661823]
我々は,CoT Monitor+という,自己監視をチェーン・オブ・シントプロセス自体に組み込むフレームワークを開発した。
生成中、モデルは(i)通常の推論ステップを生成し、(ii)不整合戦略のフラグと抑制のために訓練された内部自己評価信号を生成する。
この信号は強化学習の補助的な報酬として使われ、正直な推論に報いるフィードバックループを作成し、隠れた目標を阻止する。
論文 参考訳(メタデータ) (2025-05-24T17:41:47Z) - Reasoning Models Don't Always Say What They Think [48.05987314492555]
CoT(Chain-of-Thought)は、モデルの意図と推論プロセスの監視を可能にする。
提案する6つの推論ヒントにまたがる最先端推論モデルのCoT忠実度を評価した。
論文 参考訳(メタデータ) (2025-05-08T16:51:43Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Adversarial Attacks on Code Models with Discriminative Graph Patterns [10.543744143786519]
我々は、コードモデルの堅牢性をよりよく評価するために、新しい敵攻撃フレームワーク、GraphCodeAttackを提案する。
ターゲットのコードモデルが与えられたら、GraphCodeAttackは自動的に重要なコードパターンをマイニングし、モデルの決定に影響を与える可能性がある。
ASTパターンからの攻撃を効果的に合成するために、GraphCodeAttackは、個別にトレーニング済みのコードモデルを使用して、具体的なコードスニペットでASTを埋める。
論文 参考訳(メタデータ) (2023-08-22T03:40:34Z) - Fundamental Limitations of Alignment in Large Language Models [16.393916864600193]
人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。
これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。
本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T17:50:09Z) - Toward a Theory of Causation for Interpreting Neural Code Models [49.906221295459275]
本稿では,ニューラルコードモデル(NCM)に特化したポストホック解釈法である$do_code$を紹介する。
$do_code$は、言語指向の説明を可能にする因果推論に基づいている。
その結果,NCMはコード構文の変化に敏感であることが判明した。
論文 参考訳(メタデータ) (2023-02-07T22:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。