論文の概要: All Code, No Thought: Current Language Models Struggle to Reason in Ciphered Language
- arxiv url: http://arxiv.org/abs/2510.09714v1
- Date: Fri, 10 Oct 2025 06:01:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.580967
- Title: All Code, No Thought: Current Language Models Struggle to Reason in Ciphered Language
- Title(参考訳): すべてのコード、考えない: 現在の言語モデルは、暗号言語における推論に頑丈である
- Authors: Shiyuan Guo, Henry Sleight, Fabien Roger,
- Abstract要約: CoT(Chain-of- Thought)モニタリングは、敵の攻撃やAIのミスアライメントを検出するために広く使われている手法である。
攻撃者やミスアライメントされたモデルは、暗号推論を通じてCoTの監視を回避する可能性がある。
モデルが暗号化された推論を実行できるかどうかを検証する。
- 参考スコア(独自算出の注目度): 4.658955683408114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting harmful AI actions is important as AI agents gain adoption. Chain-of-thought (CoT) monitoring is one method widely used to detect adversarial attacks and AI misalignment. However, attackers and misaligned models might evade CoT monitoring through ciphered reasoning: reasoning hidden in encrypted, translated, or compressed text. To assess this risk, we test whether models can perform ciphered reasoning. For each of 28 different ciphers, we fine-tune and prompt up to 10 models to reason in that cipher. We measure model accuracy on math problems as a proxy for reasoning ability. Across the models we test, we find an asymmetry: model accuracy can drop significantly when reasoning in ciphered text, even though models demonstrate comprehension of ciphered text by being able to translate it accurately to English. Even frontier models struggle with lesser-known ciphers, although they can reason accurately in well-known ciphers like rot13. We show that ciphered reasoning capability correlates with cipher prevalence in pretraining data. We also identify scaling laws showing that ciphered reasoning capability improves slowly with additional fine-tuning data. Our work suggests that evading CoT monitoring using ciphered reasoning may be an ineffective tactic for current models and offers guidance on constraining the development of this capability in future frontier models.
- Abstract(参考訳): AIエージェントが採用されるにつれて、有害なAIアクションを検出することが重要である。
CoT(Chain-of- Thought)モニタリングは、敵の攻撃やAIのミスアライメントを検出するために広く使われている手法である。
しかし、攻撃者やミスアライメントされたモデルは、暗号化された推論、暗号化された、翻訳された、あるいは圧縮されたテキストに隠された推論を通じてCoTの監視を避けることができる。
このリスクを評価するため、我々はモデルが暗号推論を実行できるかどうかを検証した。
28種類の異なる暗号に対して、私たちは微調整を行い、最大10個のモデルにその暗号を推論するよう促します。
推論能力の代用として,数学問題におけるモデル精度を測定した。
モデルは、それを正確に英語に翻訳することで、暗号化されたテキストの理解を示すが、モデル精度は、暗号化されたテキストの推論時に著しく低下する。
フロンティアモデルでさえ、あまり知られていない暗号と戦っているが、rot13のようなよく知られた暗号では正確に推論できる。
暗号推論能力は事前学習データにおける暗号の有病率と相関することを示す。
また、さらなる微調整データによって、暗号推論能力が徐々に向上することを示すスケーリング法則も同定する。
我々の研究は、暗号推論を用いたCoTモニタリングの回避が、現在のモデルにとって効果の低い戦術である可能性を示唆し、将来のフロンティアモデルにおいて、この能力の開発を制限するためのガイダンスを提供する。
関連論文リスト
- ALICE: An Interpretable Neural Architecture for Generalization in Substitution Ciphers [0.3403377445166164]
本稿では、ニューラルネットワークの推論と一般化を研究するための理想的なテストベッドとして、暗号解法を提案する。
我々は,この復号化問題の精度と速度を両立させる,シンプルなエンコーダのみの変換器であるALICEを開発した。
驚くべきことに、ALICEはsim1500$のユニークな暗号をトレーニングした後、目に見えない暗号に一般化している。
論文 参考訳(メタデータ) (2025-09-08T23:33:53Z) - Evaluating Language Model Reasoning about Confidential Information [95.64687778185703]
言語モデルが文脈的堅牢性を示すか、文脈依存型安全仕様に準拠する能力を示すかを検討する。
我々は,ユーザ要求がいつ承認されたか,言語モデルが正しく判断できるかどうかを測定するベンチマーク(PasswordEval)を開発した。
現在のオープンソースとクローズドソースのモデルでは、一見単純な作業に苦労しています。
論文 参考訳(メタデータ) (2025-08-27T15:39:46Z) - Towards Safeguarding LLM Fine-tuning APIs against Cipher Attacks [10.478976654618272]
敵は、モデルの安全性メカニズムをバイパスするために、大きな言語モデルの微調整APIを利用することができる。
モデル安全性を維持する防衛戦略の能力を評価するためのベンチマークであるCIFR(Cipher Fine-tuning Robustness benchmark)を紹介する。
プローブモニタは,99%以上の検出精度を達成し,未知の暗号変種や家族に一般化し,最先端のモニタリング手法と比較した。
論文 参考訳(メタデータ) (2025-08-23T22:55:15Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。
そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。
SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文 参考訳(メタデータ) (2024-03-26T09:25:57Z) - Preventing Language Models From Hiding Their Reasoning [0.0]
大規模言語モデル(LLM)は、複雑な問題に対する答えを生成するための推論の中間ステップの恩恵を受けることが多い。
この研究では、推論の中間段階が不信である可能性のある1つの潜在的方法、すなわち符号化推論に焦点を当てる。
言語モデルは、ユーザが推論の中間ステップを理解せずに、符号化推論を利用してより高い性能を得るように訓練できることを示す。
論文 参考訳(メタデータ) (2023-10-27T22:02:29Z) - GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher [85.18213923151717]
実験により、いくつかの安全領域において、GPT-4の安全性アライメントをバイパスするために、ある暗号がほぼ100%の時間で成功することが示された。
本稿では,ロールプレイのみを使用し,自然言語によるいくつかの実演を行い,これを誘発する新しいSelfCipherを提案する。
論文 参考訳(メタデータ) (2023-08-12T04:05:57Z) - Can Sequence-to-Sequence Models Crack Substitution Ciphers? [15.898270650875158]
最先端の解読法は、ビームサーチとニューラルネットワークモデルを用いて、与えられた暗号に対する候補仮説を評価する。
提案手法は明示的な言語識別を伴わずにテキストを解読でき,雑音に対して頑健であることを示す。
論文 参考訳(メタデータ) (2020-12-30T17:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。