論文の概要: Failure-Aware Enhancements for Large Language Model (LLM) Code Generation: An Empirical Study on Decision Framework
- arxiv url: http://arxiv.org/abs/2602.02896v1
- Date: Mon, 02 Feb 2026 23:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.127267
- Title: Failure-Aware Enhancements for Large Language Model (LLM) Code Generation: An Empirical Study on Decision Framework
- Title(参考訳): 大規模言語モデル(LLM)コード生成のためのフェール・アウェア・エンハンスメント:決定フレームワークに関する実証的研究
- Authors: Jianru Shen, Zedong Peng, Lucy Owen,
- Abstract要約: GitHubの25のプロジェクトに関する実証調査では、プログレッシブプロンプトが平均96.9%のタスク完了を達成した。
自己批判はコードレビュー可能なロジックエラーで成功するが、外部サービス統合では完全に失敗する。
RAGは、より優れた効率で、すべての障害タイプで最高の完成を達成する。
- 参考スコア(独自算出の注目度): 0.26508608365976566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show promise for automating software development by translating requirements into code. However, even advanced prompting workflows like progressive prompting often leave some requirements unmet. Although methods such as self-critique, multi-model collaboration, and retrieval-augmented generation (RAG) have been proposed to address these gaps, developers lack clear guidance on when to use each. In an empirical study of 25 GitHub projects, we found that progressive prompting achieves 96.9% average task completion, significantly outperforming direct prompting (80.5%, Cohen's d=1.63, p<0.001) but still leaving 8 projects incomplete. For 6 of the most representative projects, we evaluated each enhancement strategy across 4 failure types. Our results reveal that method effectiveness depends critically on failure characteristics: Self-Critique succeeds on code-reviewable logic errors but fails completely on external service integration (0% improvement), while RAG achieves highest completion across all failure types with superior efficiency. Based on these findings, we propose a decision framework that maps each failure pattern to the most suitable enhancement method, giving practitioners practical, data-driven guidance instead of trial-and-error.
- Abstract(参考訳): 大規模言語モデル(LLM)は、要件をコードに変換することでソフトウェア開発を自動化することを約束している。
しかしながら、プログレッシブプロンプトのような高度なプロンプトワークフローでさえ、いくつかの要件を未解決のままにしておくことが多い。
自己批判やマルチモデルコラボレーション,検索拡張生成(RAG)といった手法は,これらのギャップに対処するために提案されている。
GitHubの25のプロジェクトに関する実証的研究で、プログレッシブプロンプトは平均96.9%のタスク完了を実現し、直接プロンプト(80.5%、Cohenのd=1.63、p<0.001)を著しく上回っているが、それでも8つのプロジェクトが未完成のままであることがわかった。
最も代表的な6つのプロジェクトについて、私たちは4つの障害タイプにまたがる各強化戦略を評価しました。
自己批判はコードレビュー可能なロジックエラーで成功するが、外部サービス統合(0%の改善)で完全に失敗する。
これらの知見に基づき、各障害パターンを最も適切な拡張手法にマッピングし、実践者が試行錯誤ではなく実践的でデータ駆動的なガイダンスを与える決定フレームワークを提案する。
関連論文リスト
- Holistic Evaluation of State-of-the-Art LLMs for Code Generation [5.504955093712013]
DeepSeek-R1 と GPT-4.1 は、正確性、効率、堅牢性という点で他より一貫して優れている。
構文エラーや論理的欠陥,最適化アルゴリズムといった,一般的な障害シナリオを特定します。
論文 参考訳(メタデータ) (2025-12-19T23:29:05Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - DecEx-RAG: Boosting Agentic Retrieval-Augmented Generation with Decision and Execution Optimization via Process Supervision [50.89715397781075]
Agentic Retrieval-Augmented Generation (Agentic RAG)は、複雑なタスクの処理能力を向上する。
我々は,決定と実行を取り入れたマルコフ決定プロセス(MDP)としてRAGをモデル化したDecEx-RAGを提案する。
DecEx-RAGは6つのデータセットに対して平均6.2%の絶対的なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-10-07T08:49:22Z) - A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models [53.31664844941449]
ProActive Self-Refinement (PASR)は、大規模言語モデル(LLM)を改善する新しい方法である。
反応全体を再生する手法とは異なり、PASRはモデルの内部状態と進化コンテキストに基づいて、いつ、どのように精製するかを積極的に決定する。
PASRの有効性を評価するために,多種多様な10のタスクについて広範囲に実験を行った。
論文 参考訳(メタデータ) (2025-08-18T13:07:21Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Impact of Code Context and Prompting Strategies on Automated Unit Test Generation with Modern General-Purpose Large Language Models [0.0]
ジェネレーティブAIは、ソフトウェアエンジニアリングにおいて注目を集めている。
単体テストはテストケースの大部分を占め、しばしばスキーマ的である。
本稿では,コードコンテキストが単体テストの品質と妥当性に与える影響について検討する。
論文 参考訳(メタデータ) (2025-07-18T11:23:17Z) - Chain of Draft for Software Engineering: Challenges in Applying Concise Reasoning to Code Tasks [0.0]
本研究は,CoD(Chain of Draft)法をソフトウェア工学に拡張する。
すべてのCoD変種は、Chain of Thought (CoT)よりもかなり少ないトークンを使用した。
CoDの変種は、CoTのコード品質の90%以上を、正確性、互換性、保守性を含む主要なメトリクスで維持する。
論文 参考訳(メタデータ) (2025-03-12T07:44:18Z) - Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [98.29190911211053]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。
CoRは異なる推論パラダイムによって複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。
実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (2025-01-19T16:53:26Z) - Reasoning Through Execution: Unifying Process and Outcome Rewards for Code Generation [27.484259938667776]
大規模言語モデルはコード生成に優れていますが、推論を必要とする複雑なプログラミングタスクに苦労します。
本稿では,実行可能検証を活用することで,プロセスと結果の監視を統一するアウトカム・リフィニング・プロセス・スーパービジョンを紹介する。
5つのモデルと3つのベンチマークによる実験では、26.9%の精度でコード効率が42.2%向上した。
論文 参考訳(メタデータ) (2024-12-19T17:59:42Z) - Language Models for Code Completion: A Practical Evaluation [13.174471984950857]
本研究は,実世界のコードを完成させる際の3つの公開言語モデルの定量的および定性的な評価を提供する。
1200以上のユーザから1年以上にわたって,実際の自動補完使用データを収集しました。
66.3%の障害はモデルの制限によるものであり、24.4%は開発コンテキストにおける不適切なモデル使用によるものであり、9.3%は開発者が過剰に記述した有効な要求であることがわかった。
論文 参考訳(メタデータ) (2024-02-25T20:43:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。