論文の概要: Structural Anchors and Reasoning Fragility:Understanding CoT Robustness in LLM4Code
- arxiv url: http://arxiv.org/abs/2604.12214v1
- Date: Tue, 14 Apr 2026 02:48:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.202463
- Title: Structural Anchors and Reasoning Fragility:Understanding CoT Robustness in LLM4Code
- Title(参考訳): LLM4CodeのCoTロバスト性について
- Authors: Yang Liu, Da Song, Armstrong Foundjem, Heng Li, Foutse Khomh,
- Abstract要約: Chain-of-Thought (CoT) プロンプトは、コードのための大きな言語モデル (LLM4Code) から明示的な推論を引き出すために広く使われている。
我々は、CoTが内部の不確実性ダイナミクスをどのように再認識し、なぜコード生成を助けるのではなく、時に悪影響を及ぼすのかを研究する。
- 参考スコア(独自算出の注目度): 13.598118096561775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) prompting is widely used to elicit explicit reasoning from large language models for code (LLM4Code). However, its impact on robustness and the stability of reasoning trajectories under realistic input perturbations remains poorly understood. Prior work has largely evaluated CoT through final correctness, leaving a critical gap in understanding how CoT reshapes internal uncertainty dynamics and why it sometimes harms rather than helps code generation. We suggest that CoT is not uniformly beneficial; instead, its robustness depends on whether perturbations destabilize structurally sensitive commitment points along the reasoning-to-code trajectory. We conduct a controlled, large-scale empirical study of CoT across six models and two code benchmarks (MHPP and BigCodeBench), subjecting task docstrings to systematic character-, word-, and sentence-level perturbations. We instrument full generation traces with token-level uncertainty and define three novel structural anchors: reasoning-code transition, symbolic commitment, and algorithmic articulation. Findings: (1) CoT does not yield uniform performance or robustness gains: its benefits are contingent on model family, task structure, and prompt explicitness. (2) CoT and No-CoT exhibit distinct robustness profiles, with different perturbation families triggering different failure modes. (3) We identify three recurrent trajectory deformations--Lengthening, Branching, and Simplification--that systematically emerge when perturbations interact with structural anchors and explain failure patterns. (4) Early-stage uncertainty serves as a reliable diagnostic signal for localizing where trajectory instability begins around sensitive anchors. These results provide a unified explanation for CoT's mixed performance and suggest design principles for building more robust reasoning-based code generators.
- Abstract(参考訳): Chain-of-Thought (CoT) プロンプトは、コードのための大きな言語モデル (LLM4Code) から明示的な推論を引き出すために広く使われている。
しかし、現実的な入力摂動下でのロバスト性や推論軌道の安定性への影響はよく分かっていない。
これまでの作業はCoTを最終的な正確性を通じて大きく評価しており、CoTが内部の不確実性ダイナミクスをどのように再評価するか、なぜコード生成に役立つのかを理解する上で、重大なギャップを残しています。
代わりに、その頑健性は、乱れが構造に敏感なコミットメントポイントを、推論からコードへの軌道に沿って不安定化するかどうかに依存する。
我々は、6つのモデルと2つのコードベンチマーク(MHPPとBigCodeBench)にまたがるCoTの大規模かつ大規模な実証研究を行い、タスクドクストリングを系統的な文字・単語・文レベルの摂動に従わせる。
トークンレベルの不確実性を持つフルジェネレーショントレースを計測し、推論コード遷移、シンボリックコミットメント、アルゴリズム記述という3つの新しい構造アンカーを定義する。
結果:(1)CoTは、モデルファミリ、タスク構造、迅速な明示性に基づいて、均一なパフォーマンスやロバスト性を得ることができない。
2) CoT と No-CoT は、異なる摂動系が異なる障害モードをトリガーする、異なる堅牢性プロファイルを示す。
(3) 摂動が構造的アンカーと相互作用し, 故障パターンを説明する際に, 系統的に発生する3つの繰り返し軌道変形--Lengthening, Branching, Simplification-を同定する。
(4) 早期不確実性は, センシティブアンカーの周囲の軌道不安定度を同定するための信頼性の高い診断信号として機能する。
これらの結果は、CoTの混合性能を統一的に説明し、より堅牢な推論ベースのコードジェネレータを構築するための設計原則を提案する。
関連論文リスト
- FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning [49.65751420291115]
CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは推論・軌道選択を改善し、文脈内学習を強くすることを示す。
論文 参考訳(メタデータ) (2026-04-12T15:35:08Z) - CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。
CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-16T07:27:40Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - ASCoT: An Adaptive Self-Correction Chain-of-Thought Method for Late-Stage Fragility in LLMs [21.409155842171497]
CoT(Chain-of-Thought)の促進により,LLM(Large Language Models)の推論機能が大幅に向上した。
CoT鎖の後半で導入されたエラーは、当初と同一のエラーよりも、最終回答が著しく破損する可能性が高い。
本稿では、この脆弱性に対処するために、適応自己補正連鎖法(ASCoT)を導入する。
論文 参考訳(メタデータ) (2025-08-07T11:26:40Z) - Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。
これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか?
ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文 参考訳(メタデータ) (2025-06-08T02:43:46Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。