論文の概要: An Empirical Study of Reasoning Steps in Thinking Code LLMs
- arxiv url: http://arxiv.org/abs/2511.05874v1
- Date: Sat, 08 Nov 2025 06:18:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.630094
- Title: An Empirical Study of Reasoning Steps in Thinking Code LLMs
- Title(参考訳): コードLLMにおける推論ステップの実証的研究
- Authors: Haoran Xue, Gias Uddin, Song Wang,
- Abstract要約: 大規模言語モデルを考えると、最終回答の前に明確な中間推論トレースを生成する。
本研究では,コード生成のためのLLMの推論過程と品質について検討する。
- 参考スコア(独自算出の注目度): 8.653365851909745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thinking Large Language Models (LLMs) generate explicit intermediate reasoning traces before final answers, potentially improving transparency, interpretability, and solution accuracy for code generation. However, the quality of these reasoning chains remains underexplored. We present a comprehensive empirical study examining the reasoning process and quality of thinking LLMs for code generation. We evaluate six state-of-the-art reasoning LLMs (DeepSeek-R1, OpenAI-o3-mini, Claude-3.7-Sonnet-Thinking, Gemini-2.0-Flash-Thinking, Gemini-2.5-Flash, and Qwen-QwQ) across 100 code generation tasks of varying difficulty from BigCodeBench. We quantify reasoning-chain structure through step counts and verbosity, conduct controlled step-budget adjustments, and perform a 21-participant human evaluation across three dimensions: efficiency, logical correctness, and completeness. Our step-count interventions reveal that targeted step increases can improve resolution rates for certain models/tasks, while modest reductions often preserve success on standard tasks, rarely on hard ones. Through systematic analysis, we develop a reasoning-problematic taxonomy, identifying completeness as the dominant failure mode. Task complexity significantly impacts reasoning quality; hard problems are substantially more prone to incompleteness than standard tasks. Our stability analysis demonstrates that thinking LLMs maintain consistent logical structures across computational effort levels and can self-correct previous errors. This study provides new insights into the strengths and limitations of current thinking LLMs in software engineering.
- Abstract(参考訳): 大規模言語モデル(LLM)を考えると、最終回答の前に明確な中間的推論トレースを生成し、透明性、解釈可能性、コード生成のソリューション精度を向上する可能性がある。
しかし、これらの推論鎖の質はいまだに未解明である。
本稿では、コード生成のためのLLMの推論過程と品質について総合的な実証的研究を行う。
我々はBigCodeBenchの難易度が異なる100のコード生成タスクに対して、最先端の6つのLCM(DeepSeek-R1、OpenAI-o3-mini、Claude-3.7-Sonnet-Thinking、Gemini-2.0-Flash-Thinking、Gemini-2.5-Flash、Qwen-QwQ)を評価した。
ステップカウントと冗長性を通じて推論チェーン構造を定量化し、制御されたステップ予算調整を行い、効率性、論理的正確性、完全性という3つの次元にわたって21人の参加者による評価を行う。
当社のステップカウント介入は、目標とするステップの増加が特定のモデルやタスクの解決率を改善することを示します。
系統的な分析を通じて、完全性を支配的な障害モードとして識別する推論・確率的分類法を開発する。
タスクの複雑さは推論品質に大きく影響します。
我々の安定性解析は、LLMが計算作業レベルにわたって一貫した論理構造を維持し、過去の誤りを自己修正できることを実証する。
本研究は,ソフトウェア工学における現在のLLMの強みと限界について,新たな知見を提供する。
関連論文リスト
- From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - Executable Counterfactuals: Improving LLMs' Causal Reasoning Through Code [29.382261465478248]
コードや数学の問題を通した因果推論を運用するフレームワークである実行可能逆ファクトアルを導入する。
その結果,o4-mini や Claude-4-Sonnet などの SOTA モデルでは,介入による精度 (25-40%) の低下が認められた。
また、コードで訓練されたモデルが、反実数ワード問題に一般化するかどうかを検証した。
論文 参考訳(メタデータ) (2025-10-02T00:26:35Z) - Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [106.17986469245302]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - A Survey of Slow Thinking-based Reasoning LLMs using Reinforced Learning and Inference-time Scaling Law [29.763080554625216]
本調査は「スロー思考」を模倣した大規模言語モデル(LLM)の最近の進歩を考察する。
LLMは、数学の推論、視覚的推論、診断、マルチエージェントの議論などの複雑なタスクの間、動的に計算資源をスケーリングすることに焦点を当てている。
論文 参考訳(メタデータ) (2025-05-05T14:14:59Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。