論文の概要: Chain-of-thought obfuscation learned from output supervision can generalise to unseen tasks
- arxiv url: http://arxiv.org/abs/2601.23086v1
- Date: Fri, 30 Jan 2026 15:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.531023
- Title: Chain-of-thought obfuscation learned from output supervision can generalise to unseen tasks
- Title(参考訳): 出力管理から学んだ思考の難読化は、目に見えないタスクに一般化する
- Authors: Nathaniel Mitrani Hadida, Sassan Bhanji, Cameron Tice, Puria Radmard,
- Abstract要約: チェーン・オブ・シント(CoT)推論はLLMに大幅なパフォーマンス向上をもたらす。
CoTは、これらのエージェントの振る舞いを監視する強力なツールでもある。
我々は、CoTの最適化圧力が、モデルが推論トレースを難なくし、この有益な性質を失う可能性があることを示す。
- 参考スコア(独自算出の注目度): 1.4291137439893342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) reasoning provides a significant performance uplift to LLMs by enabling planning, exploration, and deliberation of their actions. CoT is also a powerful tool for monitoring the behaviours of these agents: when faithful, they offer interpretations of the model's decision making process, and an early warning sign for dangerous behaviours. However, optimisation pressures placed on the CoT may cause the model to obfuscate reasoning traces, losing this beneficial property. We show that obfuscation can generalise across tasks; models that learn to obfuscate reasoning involving reward hacking (e.g. accessing and utilising leaked information) generalise both the reward hacking behaviour and its obfuscation in CoT to unseen reward hacking settings. Most worryingly, we show that obfuscation of CoT reasoning, and its generalisation across tasks, also follows when we penalise only the model's final actions after closing its CoT. Our findings suggest that current practices of penalising harmful generations may inadvertently lead to a reduction in the broader monitorability of LLMs in unpredictable ways.
- Abstract(参考訳): CoT(Chain-of- Thought)推論は、彼らの行動の計画、調査、検討を可能にすることで、LLMに大幅なパフォーマンス向上をもたらす。
CoTは、これらのエージェントの振る舞いを監視する強力なツールでもある。忠実な場合には、モデルの意思決定プロセスの解釈と、危険な振る舞いを早期に警告するサインを提供する。
しかし、CoT上の最適化圧力は、モデルが推論トレースを難なくし、この有益な性質を失う可能性がある。
報奨ハッキングに関わる推論(例えば、漏洩した情報へのアクセスや活用)を難読化するために学習するモデルは、報奨ハッキングの振る舞いとCoTにおける難読化の両方を一般化し、報奨ハッキングの設定を未確認にすることを示します。
最も心配なのは、CoT推論の難読化とタスク間の一般化が、CoTを閉じた後、モデルの最終動作のみをペナライズするときにも続くことである。
以上の結果から, 有害世代に対する経口投与は, 予測不能な方法でのLDMの広範な監視可能性の低下につながる可能性が示唆された。
関連論文リスト
- Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process [66.38541693477181]
本稿では, アクティベーション空間の方向として, 異なる推論挙動を符号化する, 推論ベクトルの発見のための教師なしフレームワークを提案する。
思考の連鎖トレースを文レベルの「ステップ」にセグメント化することで、リフレクションやバックトラックのような解釈可能な振る舞いに対応する歪んだ特徴を明らかにする。
本研究では,SAEデコーダ空間における信頼性関連ベクトルを同定し,応答信頼性を制御する能力を示す。
論文 参考訳(メタデータ) (2025-12-30T05:09:11Z) - Can Reasoning Models Obfuscate Reasoning? Stress-Testing Chain-of-Thought Monitorability [35.180361462848516]
Chain-of-Thought(CoT)は、アライメント監視のための有望なツールである。
モデルは検出を回避しながら隠れた敵の目標を追求するためにCoTを難読化できるのか?
我々は,CoT難燃化を誘発するプロンプトの,構成可能で定量化可能な分類法を開発した。
論文 参考訳(メタデータ) (2025-10-21T18:07:10Z) - The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLMs [2.583082967853897]
その結果,ほとんどのフロンティア推論モデルで動機付け推論が検出できることがわかった。
モデルが高度化するにつれて、モニターが検出することがますます困難になる可能性がある。
論文 参考訳(メタデータ) (2025-10-20T00:24:08Z) - Does More Inference-Time Compute Really Help Robustness? [50.47666612618054]
小規模なオープンソースモデルは、推論時間スケーリングの恩恵を受けることができることを示す。
我々は、逆スケーリング法として、直感的に動機付けられ、実証的に検証された重要なセキュリティリスクを特定します。
私たちは、セキュリティに敏感で現実世界のアプリケーションに推論タイムのスケーリングを適用する前に、実践者にこれらの微妙なトレードオフを慎重に検討するよう促します。
論文 参考訳(メタデータ) (2025-07-21T18:08:38Z) - Thought Crime: Backdoors and Emergent Misalignment in Reasoning Models [1.6639438555897186]
私たちは、Chain-of-Thoughtを無効にした悪意のある行動に関する推論モデルを微調整し、評価時にCoTを再実現します。
我々は、推論モデルが広く誤解されていることに気付きます。それらは、偽りまたは偽の答えを与え、専制的な制御の欲求を表明し、シャットダウンに抵抗します。
要約すると、推論ステップは、不整合意図を明らかにし、隠蔽し、研究されたモデルにおける不整合行動を防止する。
論文 参考訳(メタデータ) (2025-06-16T08:10:04Z) - Large language models can learn and generalize steganographic chain-of-thought under process supervision [5.173324198381261]
CoT(Chain-of- Thought)推論は意思決定プロセスに関する洞察を提供する。
CoTモニタリングは、モデルをデプロイする際のリスクを軽減するために使用できる。
負荷を含む推論トレースにおける特定の文字列の使用をペナライズすることで、モデルが代替文字列の代わりになることを示す。
論文 参考訳(メタデータ) (2025-06-02T17:45:15Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - To Think or Not to Think: Exploring the Unthinking Vulnerability in Large Reasoning Models [56.19026073319406]
大規模推論モデル (LRM) は、最終的な答えを生成する前に明確な推論トレースを生成することで複雑なタスクを解決するように設計されている。
LRM(Unthinking)と呼ばれる重要な脆弱性を明らかにし、特別なトークンを操作することで思考プロセスを回避できます。
本稿では,この脆弱性を悪意と有益の両方の観点から検討する。
論文 参考訳(メタデータ) (2025-02-16T10:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。