論文の概要: Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations
- arxiv url: http://arxiv.org/abs/2603.03332v1
- Date: Wed, 11 Feb 2026 03:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.160535
- Title: Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations
- Title(参考訳): Fragile Thoughts: 大規模言語モデルはいかにして対等な摂動を処理するか
- Authors: Ashwath Vaithinathan Aravindan, Mayank Kejriwal,
- Abstract要約: CoT(Chain-of-Thought)プロンプトは,Large Language Models(LLMs)から推論を引き出す基礎技術として登場した。
本稿は,5種類のCoT摂動型に対するロバスト性に関する総合的な実証的評価を示す: textitMathError, UnitConversion, Sycophancy, SkippedSteps, textitExtraSteps。
- 参考スコア(独自算出の注目度): 2.5782420501870296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) prompting has emerged as a foundational technique for eliciting reasoning from Large Language Models (LLMs), yet the robustness of this approach to corruptions in intermediate reasoning steps remains poorly understood. This paper presents a comprehensive empirical evaluation of LLM robustness to a structured taxonomy of 5 CoT perturbation types: \textit{MathError, UnitConversion, Sycophancy, SkippedSteps,} and \textit{ExtraSteps}. We evaluate 13 models spanning three orders of magnitude in parameter count (3B to 1.5T\footnote{Assumed parameter count of closed models}), testing their ability to complete mathematical reasoning tasks despite perturbations injected at different points in the reasoning chain. Our key findings reveal heterogeneous vulnerability patterns: MathError perturbations produce the most severe degradation in small models (50-60\% accuracy loss) but show strong scaling benefits; UnitConversion remains challenging across all scales (20-30\% loss even for largest models); ExtraSteps incur minimal accuracy degradation (0-6\%) regardless of scale; Sycophancy produces modest effects (7\% loss for small models); and SkippedSteps cause intermediate damage (15\% loss). Scaling relationships follow power-law patterns, with model size serving as a protective factor against some perturbations but offering limited defense against dimensional reasoning tasks. These findings have direct implications for deploying LLMs in multi-stage reasoning pipelines and underscore the necessity of task-specific robustness assessments and mitigation strategies. The code and results are available \href{https://github.com/Mystic-Slice/CoTPerturbation}{here}.
- Abstract(参考訳): CoT(Chain-of-Thought)プロンプトは、Large Language Models (LLMs) から推論を引き出す基礎技術として登場したが、中間的推論ステップにおける腐敗に対するこのアプローチの堅牢性は、いまだに理解されていない。
本稿では, LLMのロバスト性に関する総合的な実証的評価を, 5種類のCoT摂動型の構造的分類に応用する: \textit{MathError, UnitConversion, Sycophancy, SkippedSteps,} と \textit{ExtraSteps} である。
我々は,3桁のパラメータ数(3Bから1.5T\footnote{Assumed parameter count of closed model})にまたがる13のモデルを評価する。
私たちの重要な発見は、不均一な脆弱性パターンを示している: MathErrorの摂動は、小さなモデルにおいて最も深刻な劣化(50-60-%の精度損失)をもたらすが、強力なスケーリング効果を示す; UnitConversionは、大モデルであっても、すべてのスケールで困難(20-30-%の損失)であり、ExtraStepsは、スケールに関係なく最小限の精度低下(0-6-%)、Sycophancyは、モデスト効果(小モデルでは7-%の損失)、SkippedStepsは中間的な損傷(15-%の損失)である。
スケールする関係は、いくつかの摂動に対してモデルのサイズが保護要因となるが、次元的推論タスクに対する限定的な防御を提供する。
これらの知見は,多段階推論パイプラインにおけるLCMの展開に直接的な意味を持ち,タスク固有のロバストネス評価と緩和戦略の必要性を強調している。
コードと結果は \href{https://github.com/Mystic-Slice/CoTPerturbation}{here} で公開されている。
関連論文リスト
- Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought? [79.86483056611105]
推論 LLM は、答えを出す前にステップバイステップの思考連鎖を生成する。
これらの推論は、その内部で発生する破壊の痕跡をどれほど堅牢にしていますか?
一定のタイミングでモデル自身のCoTを摂動させる制御された評価フレームワークを導入する。
論文 参考訳(メタデータ) (2026-02-07T10:02:58Z) - Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models [15.849480549367684]
本稿では,DAG生成タスクとして脆弱性推論をモデル化する新しいフレームワークであるDAGVulを提案する。
さらにReinforcement Learning with Verifiable Rewards (RLVR)を導入することで、モデル推論トレースをプログラム固有の論理と整合させる。
我々のフレームワークは、すべてのベースラインに対して平均18.9%の推論F1スコアを改善します。
論文 参考訳(メタデータ) (2026-02-06T13:19:45Z) - CoT-X: An Adaptive Framework for Cross-Model Chain-of-Thought Transfer and Optimization [5.857877898558651]
CoT(Chain-of-Thought)推論は、大規模言語モデル(LLM)の問題解決能力を高めるが、かなりの推論オーバーヘッドをもたらす。
本稿では、適応的推論要約フレームワークを用いて、異なるスケールとアーキテクチャのモデル間での効率的なCoT転送について検討する。
論文 参考訳(メタデータ) (2025-11-07T22:35:31Z) - Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。
これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか?
ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文 参考訳(メタデータ) (2025-06-08T02:43:46Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Dynamic Early Exit in Reasoning Models [21.30793518631921]
長いチェーン・オブ・シンクレット(CoT)生成における再考は、問題解決の効率を低下させるだけでなく、精度損失のリスクも引き起こす。
我々は,LLMが生成時に早期終了によってCoT配列を自己トランケートできる簡易かつ効果的な方法を提案する。
提案手法は追加のトレーニングを必要とせず,既存の o1 ライクな推論 LLM にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-04-22T13:36:53Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。