論文の概要: Reasoning Models Sometimes Output Illegible Chains of Thought
- arxiv url: http://arxiv.org/abs/2510.27338v1
- Date: Fri, 31 Oct 2025 10:16:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.064584
- Title: Reasoning Models Sometimes Output Illegible Chains of Thought
- Title(参考訳): 思考の無意味な連鎖を出力する推論モデル
- Authors: Arun Jose,
- Abstract要約: 結果に基づく強化学習(RL)を用いて学習した言語モデルは、チェーン・オブ・シント(CoT)を用いて推論し、顕著な性能を示した。
我々は14の推論モデルにまたがってCoTの正当性を調査し、RLが人間とAIモニタの両方に不利になることが多いことを発見した。
モデルでは, 正解を正解(正解部分のみの使用を強制した場合の精度は53%低下)するが, 再サンプリング時の正解率と性能の相関は見つからない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models trained via outcome-based reinforcement learning (RL) to reason using chain-of-thought (CoT) have shown remarkable performance. Monitoring such a model's CoT may allow us to understand its intentions and detect potential malicious behavior. However, to be effective, this requires that CoTs are legible and faithful. We study CoT legibility across 14 reasoning models, finding that RL often causes reasoning to become illegible to both humans and AI monitors, with reasoning models (except Claude) generating illegible CoTs while returning to perfectly readable final answers. We show that models use illegible reasoning to reach correct answers (accuracy dropping by 53\% when forced to use only legible portions), yet find no correlation between legibility and performance when resampling - suggesting the relationship is more nuanced. We also find that legibility degrades on harder questions. We discuss potential hypotheses for these results, including steganography, training artifacts, and vestigial tokens. These results suggest that without explicit optimization for legibility, outcome-based RL naturally produces models with increasingly opaque reasoning processes, potentially undermining monitoring approaches.
- Abstract(参考訳): 結果に基づく強化学習(RL)を用いて学習した言語モデルは、チェーン・オブ・シント(CoT)を用いて推論し、顕著な性能を示した。
このようなモデルのCoTを監視することで、意図を理解し、潜在的に悪意のある振る舞いを検出することができます。
しかし、効果的にするためには、CoTは正当で忠実である必要がある。
我々は14の推論モデルにまたがってCoTの正当性を調査し、RLが人間とAIのモニターの両方に不利になることが多く、推論モデル(Claudeを除く)は未読のCoTを生成しながら、完全に読みやすい最終回答を返す。
モデルでは, 正解を正解(正解部分のみの使用を強制した場合の精度は53%低下)するが, 再サンプリング時の正解率と性能の相関は見つからない。
また、より難しい質問に対して、可否が低下していることもわかりました。
本研究は, ステガノグラフィー, トレーニングアーティファクト, 楽観的トークンなど, これらの結果の仮説を議論する。
これらの結果から,結果に基づくRLは,可視性に対する明示的な最適化がなければ,不透明な推論プロセスを持つモデルを自然に生成し,モニタリング手法を損なう可能性が示唆された。
関連論文リスト
- Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation [25.195244084313114]
CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。
CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
論文 参考訳(メタデータ) (2025-09-06T05:33:17Z) - The Challenge of Teaching Reasoning to LLMs Without RL or Distillation [31.973226821366325]
推論可能な言語モデルは、長く明示的なChain-of-Thoughtトレースを生成することで、様々な複雑なタスクにおいて最先端のパフォーマンスを達成する。
我々は、プロンプトや最小限のチューニングのみを用いて、ベースモデルでCoTを誘導できるかどうかを問う。
結果として得られたモデルは、はるかに大きなtexttQwen2.5-Math-72B-Instruct よりも優れており、いくつかの高品質な例が強力な推論能力を解き放つ可能性があることを示している。
論文 参考訳(メタデータ) (2025-07-14T01:14:50Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [53.18562650350898]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection [64.73809794561305]
errOr-aware self-ReflectION (ORION) は、エラー・アウェア・リフレクション(Error-Aware Reflection)プロセスを通じて教師のCoTを洗練するフレームワークである。
複数の数学的推論ベンチマークの実験では、ORIONはすべてのベースラインに対して2%以上パフォーマンスを継続的に改善している。
論文 参考訳(メタデータ) (2025-05-28T08:57:03Z) - Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens [14.78605805191225]
中間トークンのセマンティクスが「思考」や「推論トレース」として人間化され、実際にモデル性能にどのように影響するかを考察する。
解のみのベースラインが大幅に改善されているにもかかわらず、完全に正しいトレースで訓練されたモデルは、正しい解に到達すると、いまだに不正な推論トレースを生成する。
論文 参考訳(メタデータ) (2025-05-19T23:29:23Z) - Reasoning Models Don't Always Say What They Think [48.05987314492555]
CoT(Chain-of-Thought)は、モデルの意図と推論プロセスの監視を可能にする。
提案する6つの推論ヒントにまたがる最先端推論モデルのCoT忠実度を評価した。
論文 参考訳(メタデータ) (2025-05-08T16:51:43Z) - When More is Less: Understanding Chain-of-Thought Length in LLMs [51.631483479081645]
大規模言語モデル(LLM)は複雑な問題を分解するためにChain-of-Thought(CoT)推論を用いる。
本稿は、長いCoTがより優れていると仮定されることがしばしばあり、長いCoTが常に優れているとは限らない、と論じる。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。