Fugu-MT 論文翻訳(概要): Holistic Evaluation of State-of-the-Art LLMs for Code Generation

論文の概要: Holistic Evaluation of State-of-the-Art LLMs for Code Generation

arxiv url: http://arxiv.org/abs/2512.18131v1
Date: Fri, 19 Dec 2025 23:29:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-23 18:54:32.202407
Title: Holistic Evaluation of State-of-the-Art LLMs for Code Generation
Title（参考訳）: コード生成のための最先端LCMの全体的評価
Authors: Le Zhang, Suresh Kothari,
Abstract要約: DeepSeek-R1 と GPT-4.1 は、正確性、効率、堅牢性という点で他より一貫して優れている。構文エラーや論理的欠陥,最適化アルゴリズムといった,一般的な障害シナリオを特定します。
参考スコア（独自算出の注目度）: 5.504955093712013
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study presents a comprehensive empirical evaluation of six state-of-the-art large language models (LLMs) for code generation, including both general-purpose and code-specialized models. Using a dataset of 944 real-world LeetCode problems across five programming languages, we assess model performance using rigorous metrics: compile-time errors, runtime errors, functional failures, and algorithmic suboptimalities. The results reveal significant performance variations, with DeepSeek-R1 and GPT-4.1 consistently outperform others in terms of correctness, efficiency, and robustness. Through detailed case studies, we identify common failure scenarios such as syntax errors, logical flaws, and suboptimal algorithms, highlighting the critical role of prompt engineering and human oversight in improving results. Based on these findings, we provide actionable recommendations for developers and practitioners, emphasizing that successful LLM deployment depends on careful model selection, effective prompt design, and context-aware usage to ensure reliable code generation in real-world software development tasks.
Abstract（参考訳）: 本研究では,汎用モデルとコード特化モデルの両方を含む,コード生成のための6つの最先端大規模言語モデル (LLM) の総合的な実証評価を行う。 5つのプログラミング言語にまたがる実世界のLeetCode問題のデータセットを用いて、コンパイル時のエラー、実行時のエラー、機能的障害、アルゴリズム的なサブ最適化といった厳密なメトリクスを使用してモデルパフォーマンスを評価する。結果、DeepSeek-R1 と GPT-4.1 は正確性、効率性、堅牢性という点で他より一貫して優れていた。詳細なケーススタディを通じて、構文エラー、論理的欠陥、最適化アルゴリズムなどの一般的な障害シナリオを特定し、結果を改善する上でのエンジニアリングと人間の監督の促進の重要性を強調します。これらの知見に基づき、我々は開発者や実践者に実用的なレコメンデーションを提供し、LLMのデプロイメントを成功させるには、実世界のソフトウェア開発タスクにおいて信頼性の高いコード生成を保証するために、慎重なモデル選択、効果的なプロンプト設計、コンテキスト認識の使用に依存することを強調した。

関連論文リスト

Readability-Robust Code Summarization via Meta Curriculum Learning [53.44612630063336]
現実の世界では、コードが貧弱な構造や難読化され、モデルのパフォーマンスが著しく低下することが多い。本稿では,可読性の低いコードに対するコード要約の堅牢性を向上する,新しい微調整手法であるRoFTCodeSumを提案する。
論文参考訳（メタデータ） (2026-01-09T02:38:24Z)
Large Language Model enabled Mathematical Modeling [2.132096006921049]
本研究では,Large Language Models (LLMs) の自然言語理解とコード生成による定式化ギャップを埋める可能性について検討する。 DeepSeek-R1は、強化学習で訓練された費用効率で高性能なモデルである。本手法は,基礎的評価,幻覚分類の発達,緩和戦略の適用を含む。
論文参考訳（メタデータ） (2025-10-22T17:41:42Z)
Leveraging Test Driven Development with Large Language Models for Reliable and Verifiable Spreadsheet Code Generation: A Research Framework [0.0]
本稿では、テスト駆動開発(TDD)の実証済みのソフトウェアエンジニアリングプラクティスとLLM(Large Language Model)による生成を統合する、構造化された研究フレームワークを提案する。テスト駆動思考を強調することで、計算思考の改善、エンジニアリングスキルの促進、ユーザエンゲージメントの実現を目指す。
論文参考訳（メタデータ） (2025-10-17T12:28:16Z)
Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。 SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
Language Models for Code Optimization: Survey, Challenges and Future Directions [7.928856221466083]
ディープニューラルネットワーク(DNN)上に構築された言語モデル(LM)は、先日、ソフトウェアエンジニアリングタスクにおいて、画期的な効果を実証した。本研究は、この急速に発展する分野において、研究者と実践者の両方に実行可能な洞察と参照を提供することを目的としている。
論文参考訳（メタデータ） (2025-01-02T14:20:36Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Towards Coarse-to-Fine Evaluation of Inference Efficiency for Large Language Models [95.96734086126469]
大規模言語モデル(LLM)は、ユーザが仕事を達成するのを助けるアシスタントとして機能し、高度なアプリケーションの開発をサポートする。 LLMの幅広い応用にとって、推論効率は重要な問題であり、既存の研究で広く研究されている。各種コードライブラリの推論性能の粗大な解析を行う。
論文参考訳（メタデータ） (2024-04-17T15:57:50Z)
Exploring Data-Efficient Adaptation of Large Language Models for Code Generation [64.5583894165813]
コード生成のための誤り駆動学習を用いたデータ効率向上のための新しい適応手法DEEDを提案する。実験により、他の主流の微調整手法と比較して、DEEDは訓練データが少なく、優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-02-29T16:09:02Z)
LLM4TDD: Best Practices for Test Driven Development Using Large Language Models [0.76146285961466]
本稿では,LLM4TDDの概念を考察し,テスト駆動開発手法を用いて大規模言語モデルを用いてコードを反復的に生成する手法を提案する。本稿では,ChatGPTとLeetCodeのコーディング問題を用いて実験的な評価を行い,LLM4TDDの有効性に対するテスト,プロンプト,問題属性の影響について検討する。
論文参考訳（メタデータ） (2023-12-07T20:37:54Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。