論文の概要: Uncovering Weaknesses in Neural Code Generation
- arxiv url: http://arxiv.org/abs/2407.09793v2
- Date: Wed, 17 Jul 2024 14:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 12:07:55.404407
- Title: Uncovering Weaknesses in Neural Code Generation
- Title(参考訳): ニューラルコード生成における弱さの発見
- Authors: Xiaoli Lian, Shuaisong Wang, Jieping Ma, Fang Liu, Xin Tan, Li Zhang, Lin Shi, Cuiyun Gao,
- Abstract要約: マッチングベースのメトリクスと実行ベースのメトリクスを用いて生成されたコードの品質を評価し、その後、セマンティック分析を行い、9種類の弱点の分類法を開発する。
CoNaLaデータセットでは、不正確なプロンプトが顕著な問題であり、すべての大きなモデルが26.84%のケースで失敗する。
CoNaLaタスクの65.78%でキーセマンティクスを省略する1つ以上の大きなモデルがある。
すべてのモデルは、あいまいなプロンプトや複雑なプロンプトによって増幅された、適切なAPI使用に苦しむ。
- 参考スコア(独自算出の注目度): 21.552898575210534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code generation, the task of producing source code from prompts, has seen significant advancements with the advent of pre-trained large language models (PLMs). Despite these achievements, there lacks a comprehensive taxonomy of weaknesses about the benchmark and the generated code, which risks the community's focus on known issues at the cost of under-explored areas. Our systematic study aims to fill this gap by evaluating five state-of-the-art PLMs: three larger models, CodeGen2.5 with 7 billion parameters, CodeGeeX2 with 6 billion parameters, GPT-4 Turbo, and two smaller ones, UnixCoder with 110 million parameters and CodeT5 base with 220 million parameters, across three popular datasets, CoNaLa, HumanEval Plus, and DS-1000. We assess the quality of generated code using match-based and execution-based metrics, then conduct thematic analysis to develop a taxonomy of nine types of weaknesses. We dissected weakness distributions in both larger and smaller models, applying an extensive methodology that encompasses model-specific as well as collective analysis (union and intersection) across models. Our research uncovers three salient findings: 1. In the CoNaLa dataset, inaccurate prompts are a notable problem, causing all large models to fail in 26.84% of cases, with even higher failure rates of 40% for smaller models; 2. Missing pivotal semantics is a pervasive issue across benchmarks, with one or more large models omitting key semantics in 65.78% of CoNaLa tasks, and similarly high occurrences in HumanEval Plus (66.09%) and DS-1000 (80.51%); 3. All models struggle with proper API usage, a challenge amplified by vague or complex prompts. Our findings aim to steer researchers towards addressing specific weaknesses and challenges in code generation. Furthermore, our annotations can offer a targeted benchmark subset for detailed analysis.
- Abstract(参考訳): プロンプトからソースコードを生成するタスクであるコード生成は、事前訓練された大規模言語モデル(PLM)の出現によって大幅に進歩した。
これらの成果にもかかわらず、ベンチマークと生成されたコードに関する弱点の包括的分類が欠けているため、未調査領域のコストで既知の問題にコミュニティが集中するリスクがある。
我々の体系的な研究は、5つの最先端PLMを評価することでこのギャップを埋めることを目指している。3つの大きなモデル、70億のパラメータを持つCodeGen2.5、60億のパラメータを持つCodeGeeX2、GPT-4 Turbo、そして2つの小さなモデル、110万のパラメータを持つUnixCoder、22000万のパラメータを持つCodeT5ベースであるCoNaLa、HumanEval Plus、DS-1000である。
マッチングベースのメトリクスと実行ベースのメトリクスを用いて生成されたコードの品質を評価し、その後、セマンティック分析を行い、9種類の弱点の分類法を開発する。
我々は、大小両方のモデルの弱み分布を分離し、モデル固有のだけでなく、モデル間の集団分析(ユニオンと交差)を含む広範な方法論を適用した。
私たちの研究は3つの有能な発見を発見しました。
1. CoNaLaデータセットでは、不正確なプロンプトが顕著な問題であり、すべての大きなモデルが26.84%のケースでフェールし、より小さなモデルでは40%高いフェール率で失敗する。
2 CoNaLaタスクの65.78%でキーセマンティクスを省略し、同様にHumanEval Plus (66.09%) とDS-1000 (80.51%) で発生する。
3. すべてのモデルは、あいまいなプロンプトや複雑なプロンプトによって増幅された、適切なAPI使用に苦しむ。
私たちの研究は、コード生成における特定の弱点と課題に対処するために研究者を指導することを目的としています。
さらに、アノテーションは詳細な分析のためにターゲットとなるベンチマークサブセットを提供することができます。
関連論文リスト
- HackerRank-ASTRA: Evaluating Correctness & Consistency of Large Language Models on cross-domain multi-file project problems [2.4241401076864]
HackerRank-ASTRA Benchmarkでは、実際のシナリオを反映したプロジェクトベースのコーディング問題が導入されている。
モデル一貫性を32ラン(k = 32)と中央標準偏差で評価する。
上位3モデル(o1、o1-preview、Claude-3.5-Sonnet-1022)は75%のスコアを記録した。
論文 参考訳(メタデータ) (2025-01-31T23:47:02Z) - Token-by-Token Regeneration and Domain Biases: A Benchmark of LLMs on Advanced Mathematical Problem-Solving [0.0]
本研究は,MATHデータセットを用いて10大言語モデル(LLM)を70億から80億のパラメータで評価する。
焦点は、9450以上のコード実行を含む、推論プロセスのステップとして実行可能なPythonコードを生成する能力である。
論文 参考訳(メタデータ) (2025-01-28T17:11:36Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Exploring RAG-based Vulnerability Augmentation with LLMs [19.45598962972431]
VulScribeRは、慎重にキュレートされたプロンプトテンプレートを利用して脆弱なデータセットを拡張する新しいソリューションである。
我々のアプローチでは、VulgenとVGXの2つのSOTAメソッドを破り、Random Oversampling(ROS)を27.48%、27.93%、f1スコアで15.41%、平均5Kで弱いサンプルを生成した。
論文 参考訳(メタデータ) (2024-08-07T23:22:58Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - How secure is AI-generated Code: A Large-Scale Comparison of Large Language Models [3.4887856546295333]
本研究では,C言語記述時の脆弱性発生傾向について,最先端のLarge Language Model (LLM)を比較した。
生成されたプログラムの少なくとも62.07%は脆弱性がある。
論文 参考訳(メタデータ) (2024-04-29T01:24:14Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文 参考訳(メタデータ) (2024-03-04T18:58:30Z) - Language Models for Code Completion: A Practical Evaluation [13.174471984950857]
本研究は,実世界のコードを完成させる際の3つの公開言語モデルの定量的および定性的な評価を提供する。
1200以上のユーザから1年以上にわたって,実際の自動補完使用データを収集しました。
66.3%の障害はモデルの制限によるものであり、24.4%は開発コンテキストにおける不適切なモデル使用によるものであり、9.3%は開発者が過剰に記述した有効な要求であることがわかった。
論文 参考訳(メタデータ) (2024-02-25T20:43:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。