論文の概要: Are They All Good? Evaluating the Quality of CoTs in LLM-based Code Generation
- arxiv url: http://arxiv.org/abs/2507.06980v1
- Date: Wed, 09 Jul 2025 16:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.661674
- Title: Are They All Good? Evaluating the Quality of CoTs in LLM-based Code Generation
- Title(参考訳): すべて良いのか? LLMベースのコード生成におけるCoTの品質評価
- Authors: Binquan Zhang, Li Zhang, Zhiwen Luo, Yuxin Du, Fang Liu, Song Wang, Lin Shi,
- Abstract要約: 大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを示している。
しかし、LLMが生成するチェーン・オブ・シント(CoT)の品質についてはほとんど分かっていない。
本稿では、LCMが不満足なCoTを生成する理由の外部および内部的要因を実験的に検討する。
- 参考スコア(独自算出の注目度): 11.090557370168439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated impressive performance in code generation, particularly when augmented with chain-of-thought (CoT) prompting techniques. They break down requirements into intermediate reasoning steps, which act as design rationales to guide LLMs in writing code like human programmers. Thus, the quality of these steps is crucial for ensuring the correctness and reliability of the generated code. However, little is known about the quality of CoT generated by LLMs. To what extent can we trust the thoughts generated by LLMs? How good are they? This paper empirically explores the external and internal factors of why LLMs generate unsatisfactory CoTs by analyzing 1,023 failed code samples on two widely used code generation benchmarks. We also evaluate their impact on code generation performance by analyzing 210 CoT-code pairs and refining the unsatisfied CoTs by prompting LLMs. Our study reveals three key findings: (1) External factors (53.60%), such as unclear requirements and lack of context, mainly affect CoT quality, while internal factors (40.10%) stem from LLMs' misunderstanding prompts. (2) Even when CoTs are correct, 18.5% of the generated code contains errors due to instruction-following issues; conversely, 11.90% of correct code is paired with flawed CoTs. (3) Refining low-quality CoTs is feasible, i.e., LLMs improve when given detailed problem descriptions. These findings highlight key challenges in CoT-based code generation and suggest directions for improving LLM reasoning and reliability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特にチェーン・オブ・シークレット(CoT)プロンプト技術で強化された場合、コード生成において顕著なパフォーマンスを示している。
彼らは要件を中間的な推論ステップに分解し、人間のプログラマのようなコードを書く際にLCMを導く設計の合理性として機能します。
したがって、これらのステップの品質は、生成されたコードの正確性と信頼性を保証するために不可欠である。
しかし、LLMが生成するCoTの品質についてはほとんど分かっていない。
LLMが生み出す思考を、どの程度信頼できますか?
どれくらいいいのか?
本稿では,2つの広く使用されているコード生成ベンチマーク上で1023個のコードサンプルを解析することにより,LCMが不満足なCoTを生成する理由の外部的および内部的要因を実証的に検討する。
また,210個のCoTコードペアを解析し,LCMによる不満足なCoTを精査することにより,コード生成性能への影響を評価する。
1) 外部要因(53.60%)はCoTの品質に悪影響を及ぼすが, 内部要因(40.10%)はLLMの誤解によるものである。
2) CoT が正しい場合でも、生成されたコードの18.5%は命令追従の問題によるエラーを含む。
(3)低品質CoTの精製は実現可能、すなわち、詳細な問題記述が与えられた場合、LCMは改善する。
これらの発見は、CoTベースのコード生成における重要な課題を浮き彫りにし、LLM推論と信頼性を改善するための方向性を提案する。
関連論文リスト
- Uncertainty-Guided Chain-of-Thought for Code Generation with LLMs [45.33160999781074]
大規模言語モデル(LLM)の問題解決能力向上に有効な手法として,チェーン・オブ・ソート(CoT)推論が実証されている。
我々は、不確実性を認識したCoT推論機構を組み込むことで、コード生成を向上させるためのUnCert-CoTを導入する。
論文 参考訳(メタデータ) (2025-03-19T15:40:45Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - HumanEvalComm: Benchmarking the Communication Competence of Code Generation for LLMs and LLM Agent [2.8391355909797644]
大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。
LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。
論文 参考訳(メタデータ) (2024-05-31T22:06:18Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - Chain-of-Thought in Neural Code Generation: From and For Lightweight Language Models [22.392809555644646]
大規模言語モデル(LLM)は、コード生成において顕著な可能性を示している。
本研究では,100億未満のパラメータを持つと定義される軽量言語モデル (lLM) について検討する。
これらの知見に基づいて,思考の連鎖(CoTs)を自動生成する lLM を利用した新しいアプローチ COTTON を設計する。
その結果,COTTONが生成するCoTsは,自動評価と人的評価の指標において,ベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-09T12:20:50Z) - Fixing Large Language Models' Specification Misunderstanding for Better Code Generation [13.494822086550604]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。
まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。
muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文 参考訳(メタデータ) (2023-09-28T02:58:07Z) - Structured Chain-of-Thought Prompting for Code Generation [48.43888515848583]
CoTプロンプト(Chain-of-Thought)は最先端のプロンプト技術である。
本研究では、構造化CoT(Structured CoTs)を提案し、コード生成のための新しいプロンプト技術であるSCoTプロンプトを提案する。
論文 参考訳(メタデータ) (2023-05-11T06:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。