Fugu-MT 論文翻訳(概要): Uncovering Weaknesses in Neural Code Generation

論文の概要: Uncovering Weaknesses in Neural Code Generation

arxiv url: http://arxiv.org/abs/2407.09793v2
Date: Wed, 17 Jul 2024 14:34:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 12:07:55.404407
Title: Uncovering Weaknesses in Neural Code Generation
Title（参考訳）: ニューラルコード生成における弱さの発見
Authors: Xiaoli Lian, Shuaisong Wang, Jieping Ma, Fang Liu, Xin Tan, Li Zhang, Lin Shi, Cuiyun Gao,
Abstract要約: マッチングベースのメトリクスと実行ベースのメトリクスを用いて生成されたコードの品質を評価し、その後、セマンティック分析を行い、9種類の弱点の分類法を開発する。 CoNaLaデータセットでは、不正確なプロンプトが顕著な問題であり、すべての大きなモデルが26.84%のケースで失敗する。 CoNaLaタスクの65.78%でキーセマンティクスを省略する1つ以上の大きなモデルがある。すべてのモデルは、あいまいなプロンプトや複雑なプロンプトによって増幅された、適切なAPI使用に苦しむ。
参考スコア（独自算出の注目度）: 21.552898575210534
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code generation, the task of producing source code from prompts, has seen significant advancements with the advent of pre-trained large language models (PLMs). Despite these achievements, there lacks a comprehensive taxonomy of weaknesses about the benchmark and the generated code, which risks the community's focus on known issues at the cost of under-explored areas. Our systematic study aims to fill this gap by evaluating five state-of-the-art PLMs: three larger models, CodeGen2.5 with 7 billion parameters, CodeGeeX2 with 6 billion parameters, GPT-4 Turbo, and two smaller ones, UnixCoder with 110 million parameters and CodeT5 base with 220 million parameters, across three popular datasets, CoNaLa, HumanEval Plus, and DS-1000. We assess the quality of generated code using match-based and execution-based metrics, then conduct thematic analysis to develop a taxonomy of nine types of weaknesses. We dissected weakness distributions in both larger and smaller models, applying an extensive methodology that encompasses model-specific as well as collective analysis (union and intersection) across models. Our research uncovers three salient findings: 1. In the CoNaLa dataset, inaccurate prompts are a notable problem, causing all large models to fail in 26.84% of cases, with even higher failure rates of 40% for smaller models; 2. Missing pivotal semantics is a pervasive issue across benchmarks, with one or more large models omitting key semantics in 65.78% of CoNaLa tasks, and similarly high occurrences in HumanEval Plus (66.09%) and DS-1000 (80.51%); 3. All models struggle with proper API usage, a challenge amplified by vague or complex prompts. Our findings aim to steer researchers towards addressing specific weaknesses and challenges in code generation. Furthermore, our annotations can offer a targeted benchmark subset for detailed analysis.
Abstract（参考訳）: プロンプトからソースコードを生成するタスクであるコード生成は、事前訓練された大規模言語モデル(PLM)の出現によって大幅に進歩した。これらの成果にもかかわらず、ベンチマークと生成されたコードに関する弱点の包括的分類が欠けているため、未調査領域のコストで既知の問題にコミュニティが集中するリスクがある。我々の体系的な研究は、5つの最先端PLMを評価することでこのギャップを埋めることを目指している。3つの大きなモデル、70億のパラメータを持つCodeGen2.5、60億のパラメータを持つCodeGeeX2、GPT-4 Turbo、そして2つの小さなモデル、110万のパラメータを持つUnixCoder、22000万のパラメータを持つCodeT5ベースであるCoNaLa、HumanEval Plus、DS-1000である。マッチングベースのメトリクスと実行ベースのメトリクスを用いて生成されたコードの品質を評価し、その後、セマンティック分析を行い、9種類の弱点の分類法を開発する。我々は、大小両方のモデルの弱み分布を分離し、モデル固有のだけでなく、モデル間の集団分析(ユニオンと交差)を含む広範な方法論を適用した。私たちの研究は3つの有能な発見を発見しました。 1. CoNaLaデータセットでは、不正確なプロンプトが顕著な問題であり、すべての大きなモデルが26.84%のケースでフェールし、より小さなモデルでは40%高いフェール率で失敗する。 2 CoNaLaタスクの65.78%でキーセマンティクスを省略し、同様にHumanEval Plus (66.09%) とDS-1000 (80.51%) で発生する。 3. すべてのモデルは、あいまいなプロンプトや複雑なプロンプトによって増幅された、適切なAPI使用に苦しむ。私たちの研究は、コード生成における特定の弱点と課題に対処するために研究者を指導することを目的としています。さらに、アノテーションは詳細な分析のためにターゲットとなるベンチマークサブセットを提供することができます。

関連論文リスト

OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文参考訳（メタデータ） (2025-08-07T17:54:15Z)
Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
InfiJanice: Joint Analysis and In-situ Correction Engine for Quantization-Induced Math Degradation in Large Language Models [39.257022875813284]
LLM(Large Language Models)は、GSM8K、MATH、AIMEといった複雑な推論ベンチマークにおいて、優れたパフォーマンスを示している。モデル量子化は、メモリフットプリントと推論レイテンシを低減するための有望なアプローチとして登場した。量子化は、数学的推論の精度を最大69.81%低下させることができることを示す。
論文参考訳（メタデータ） (2025-05-16T12:11:40Z)
Code Generation with Small Language Models: A Deep Evaluation on Codeforces [2.314213846671956]
小言語モデルは、より高速な推論、デプロイメントオーバーヘッドの低減、ドメイン固有のタスクへの適応性の向上を提供する。 800から2100までのEloレーティングにまたがる280のCodeforce問題の5つのオープンSLMをベンチマークします。 PHI-4 14BはSLMの中で最高の性能を発揮し、パス@3は63.6%だった。
論文参考訳（メタデータ） (2025-04-09T23:57:44Z)
Enhancing the Robustness of LLM-Generated Code: Empirical Study and Framework [25.793118619876513]
RobGenは、モデルの再トレーニングを必要とせずに、コードの堅牢性を高めるように設計されたフレームワークである。 RobGenは、ロバストなモデル生成コードの比率を20.0%削減する。
論文参考訳（メタデータ） (2025-03-26T03:44:03Z)
Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-03-06T15:36:06Z)
HackerRank-ASTRA: Evaluating Correctness & Consistency of Large Language Models on cross-domain multi-file project problems [2.4241401076864]
HackerRank-ASTRA Benchmarkでは、実際のシナリオを反映したプロジェクトベースのコーディング問題が導入されている。モデル一貫性を32ラン(k = 32)と中央標準偏差で評価する。上位3モデル(o1、o1-preview、Claude-3.5-Sonnet-1022)は75%のスコアを記録した。
論文参考訳（メタデータ） (2025-01-31T23:47:02Z)
CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文参考訳（メタデータ） (2024-11-07T00:09:54Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Exploring RAG-based Vulnerability Augmentation with LLMs [19.45598962972431]
大規模言語モデル(LLM)は、様々なコード生成と理解タスクの解決に使用されている。本研究では,LSM,すなわちミューテーション,インジェクション,拡張によって脆弱性を増大させる3つの戦略について検討する。以上の結果から,本手法はベースライン設定 (NoAug, Vulgen, VGX) とランダムオーバーサンプリング (ROS) を30.80%, 27.48%, 27.93%, 15.41% で打ち負かした。
論文参考訳（メタデータ） (2024-08-07T23:22:58Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
MapCoder: Multi-Agent Code Generation for Competitive Problem Solving [3.3856216159724983]
マルチエージェントプロンプトを利用したコード生成タスクに新たなアプローチを導入する。私たちのフレームワークであるMapCoderは、プログラム合成の段階をエミュレートするために設計された4つのLLMエージェントで構成されています。我々の手法は、様々なプログラミング言語で一貫して優れた性能を提供する。
論文参考訳（メタデータ） (2024-05-18T22:10:15Z)
Do Neutral Prompts Produce Insecure Code? FormAI-v2 Dataset: Labelling Vulnerabilities in Code Generated by Large Language Models [3.4887856546295333]
この研究は、最先端の大規模言語モデル(LLM)の比較分析を提供する。中立なゼロショットプロンプトを使って単純なCプログラムを書く際に、脆弱性が発生する可能性を分析する。
論文参考訳（メタデータ） (2024-04-29T01:24:14Z)
Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文参考訳（メタデータ） (2024-04-02T16:25:30Z)
Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。 KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。 KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文参考訳（メタデータ） (2024-03-04T18:58:30Z)
Language Models for Code Completion: A Practical Evaluation [13.174471984950857]
本研究は,実世界のコードを完成させる際の3つの公開言語モデルの定量的および定性的な評価を提供する。 1200以上のユーザから1年以上にわたって,実際の自動補完使用データを収集しました。 66.3%の障害はモデルの制限によるものであり、24.4%は開発コンテキストにおける不適切なモデル使用によるものであり、9.3%は開発者が過剰に記述した有効な要求であることがわかった。
論文参考訳（メタデータ） (2024-02-25T20:43:55Z)
DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文参考訳（メタデータ） (2024-02-19T18:35:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。