論文の概要: Unsupervised decoding of encoded reasoning using language model interpretability
- arxiv url: http://arxiv.org/abs/2512.01222v1
- Date: Mon, 01 Dec 2025 03:05:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.656648
- Title: Unsupervised decoding of encoded reasoning using language model interpretability
- Title(参考訳): 言語モデル解釈可能性を用いた符号化推論の教師なし復号化
- Authors: Ching Fang, Samuel Marks,
- Abstract要約: 我々は、現在の解釈可能性技術が符号化推論に浸透できるかどうかを考察する。
ここでは,ロジットレンズが効果的に符号化推論を翻訳可能であることを示す。
我々は、ロジットレンズと自動パラフレージングを組み合わせた、完全に教師なしの復号パイプラインを開発した。
- 参考スコア(独自算出の注目度): 5.139676481194603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models become increasingly capable, there is growing concern that they may develop reasoning processes that are encoded or hidden from human oversight. To investigate whether current interpretability techniques can penetrate such encoded reasoning, we construct a controlled testbed by fine-tuning a reasoning model (DeepSeek-R1-Distill-Llama-70B) to perform chain-of-thought reasoning in ROT-13 encryption while maintaining intelligible English outputs. We evaluate mechanistic interpretability methods--in particular, logit lens analysis--on their ability to decode the model's hidden reasoning process using only internal activations. We show that logit lens can effectively translate encoded reasoning, with accuracy peaking in intermediate-to-late layers. Finally, we develop a fully unsupervised decoding pipeline that combines logit lens with automated paraphrasing, achieving substantial accuracy in reconstructing complete reasoning transcripts from internal model representations. These findings suggest that current mechanistic interpretability techniques may be more robust to simple forms of encoded reasoning than previously understood. Our work provides an initial framework for evaluating interpretability methods against models that reason in non-human-readable formats, contributing to the broader challenge of maintaining oversight over increasingly capable AI systems.
- Abstract(参考訳): 大きな言語モデルがますます有能になるにつれて、人間の監視から符号化されたり隠されたりした推論プロセスを開発するのではないかという懸念が高まっている。
本研究では,現在の解釈可能性技術がそのような推論を浸透させるかどうかを調べるために,推論モデル(DeepSeek-R1-Distill-Llama-70B)を微調整して制御テストベッドを構築し,ROT-13暗号におけるチェーン・オブ・シークレット推論を行う。
特に、ロジットレンズ解析において、内部アクティベーションのみを用いて、モデルが隠された推論過程をデコードする機能について、メカニスティックな解釈可能性の評価を行う。
また,ロジットレンズは符号化推論を効果的に翻訳し,中間層から中間層までの精度をピークとすることを示した。
最後に、ロジットレンズと自動パラフレージングを組み合わせた完全教師なし復号パイプラインを開発し、内部モデル表現からの完全推論文字の再構成において、かなりの精度を達成した。
これらの結果から,現在の機械的解釈可能性技術は,これまで理解されていたよりも単純な推論法に対してより堅牢である可能性が示唆された。
我々の研究は、非可読形式のモデルに対して解釈可能性の手法を評価するための最初のフレームワークを提供しており、ますます能力のあるAIシステムに対する監視を維持するというより広範な課題に寄与している。
関連論文リスト
- All Code, No Thought: Current Language Models Struggle to Reason in Ciphered Language [4.658955683408114]
CoT(Chain-of- Thought)モニタリングは、敵の攻撃やAIのミスアライメントを検出するために広く使われている手法である。
攻撃者やミスアライメントされたモデルは、暗号推論を通じてCoTの監視を回避する可能性がある。
モデルが暗号化された推論を実行できるかどうかを検証する。
論文 参考訳(メタデータ) (2025-10-10T06:01:22Z) - Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning [65.20602712957725]
Cacoは、高品質で検証可能な多様な命令-CoT推論データの合成を自動化する新しいフレームワークである。
我々の研究は、人間の介入なしに自己持続的で信頼できる推論システムを構築するためのパラダイムを確立します。
論文 参考訳(メタデータ) (2025-10-05T07:59:24Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - Deceptive Automated Interpretability: Language Models Coordinating to Fool Oversight Systems [0.0]
言語モデルが検出を回避した誤認的な説明を生成できることを示す。
我々のエージェントは、一見無邪気な説明で情報を隠蔽するために、ステガノグラフィー手法を使っている。
試験された全てのLSMエージェントは、基準ラベルに匹敵する高い解釈可能性のスコアを達成しつつ、監督者を欺くことができる。
論文 参考訳(メタデータ) (2025-04-10T15:07:10Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Preventing Language Models From Hiding Their Reasoning [0.0]
大規模言語モデル(LLM)は、複雑な問題に対する答えを生成するための推論の中間ステップの恩恵を受けることが多い。
この研究では、推論の中間段階が不信である可能性のある1つの潜在的方法、すなわち符号化推論に焦点を当てる。
言語モデルは、ユーザが推論の中間ステップを理解せずに、符号化推論を利用してより高い性能を得るように訓練できることを示す。
論文 参考訳(メタデータ) (2023-10-27T22:02:29Z) - LogiGAN: Learning Logical Reasoning via Adversarial Pre-training [58.11043285534766]
本稿では,言語モデルの論理的推論能力を向上させるために,教師なしの対人事前学習フレームワークLogiGANを提案する。
人間の学習におけるリフレクティブ思考の促進効果に着想を得て,逆生成検証アーキテクチャを用いて学習思考過程をシミュレートする。
LogiGANで事前トレーニングされたベースモデルと大規模言語モデルの両方で、12のデータセットで明らかなパフォーマンス改善が示されている。
論文 参考訳(メタデータ) (2022-05-18T08:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。