Fugu-MT 論文翻訳(概要): Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models

論文の概要: Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models

arxiv url: http://arxiv.org/abs/2407.11470v1
Date: Tue, 16 Jul 2024 08:08:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 16:12:18.394597
Title: Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models
Title（参考訳）: 正確性を超えて:大規模言語モデルのための多次元コード生成のベンチマーク
Authors: Jiasheng Zheng, Boxi Cao, Zhengzhao Ma, Ruotong Pan, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun,
Abstract要約: 本稿では,大規模言語モデル(LLM)が生成するコードの品質を包括的に評価する RACE ベンチマークを提案する。ユーザ要求を満たす正しいコードを生成するモデルの能力を評価するために,各次元の様々なタイプのユーザ要件を設計する。 RACE上の18の代表的なLCMを評価し、要求に応じて高品質なコードを生成する能力は、まだソフトウェア開発の要件を満たしていないことを発見した。
参考スコア（独自算出の注目度）: 43.56644186785491
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, researchers have proposed numerous benchmarks to evaluate the impressive coding capabilities of large language models (LLMs). However, existing benchmarks primarily focus on assessing the correctness of code generated by LLMs, while neglecting other critical dimensions that also significantly impact code quality. Therefore, this paper proposes the RACE benchmark, which comprehensively evaluates the quality of code generated by LLMs across 4 dimensions: Readability, mAintainability, Correctness, and Efficiency. Specifically, considering the demand-dependent nature of dimensions beyond correctness, we design various types of user requirements for each dimension to assess the model's ability to generate correct code that also meets user demands. We evaluate 18 representative LLMs on RACE and find that: 1) the current LLMs' ability to generate high-quality code on demand does not yet meet the requirements of software development; 2) readability serves as a critical indicator of the overall quality of generated code; 3) most LLMs exhibit an inherent preference for specific coding style. These findings can help researchers gain a deeper understanding of the coding capabilities of current LLMs and shed light on future directions for model improvement.
Abstract（参考訳）: 近年,大規模言語モデル(LLM)の符号化能力を評価するために,多数のベンチマークが提案されている。しかし、既存のベンチマークは主に、LLMが生成したコードの正確性を評価することに焦点を当て、コード品質に大きな影響を及ぼす他の重要な次元を無視している。そこで本研究では,可読性,mAintainability,正確性,効率性の4次元にわたってLLMが生成するコードの品質を総合的に評価するRASベンチマークを提案する。具体的には、正確性を超えた次元の要求に依存した性質を考慮し、各次元に対する様々なタイプのユーザ要求を設計し、モデルがユーザ要求を満たす正しいコードを生成する能力を評価する。 RACE上での18の代表的なLCMを評価し,そを見いだす。 1) 要求に応じて高品質なコードを生成する現在のLLMの能力は、まだソフトウェア開発の要件を満たしていない。 2) 可読性は,生成されたコード全体の品質の臨界指標として機能する。 3)ほとんどのLCMは,特定のコーディングスタイルに固有の嗜好を示す。これらの発見は、研究者が現在のLLMのコーディング能力についてより深く理解し、将来のモデル改善の方向性に光を当てるのに役立つ。

関連論文リスト

Is LLM-Generated Code More Maintainable \& Reliable than Human-Written Code? [4.893345190925178]
本研究では,LLM生成コードと人手書きコードの内部品質特性を比較した。我々の分析によると、LLM生成コードにはバグが少なく、全体的な修正に労力がかかりません。
論文参考訳（メタデータ） (2025-08-01T15:17:34Z)
Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。その結果,2つの領域間に大きな性能差が認められた。
論文参考訳（メタデータ） (2025-05-22T12:27:02Z)
CoCo-Bench: A Comprehensive Code Benchmark For Multi-task Large Language Model Evaluation [19.071855537400463]
大規模言語モデル(LLM)はソフトウェア工学において重要な役割を果たし、コード生成やメンテナンスといったタスクに優れています。 CoCo-Benchは、コード理解、コード生成、コード修正、コードレビューの4つの重要な側面にわたるLCMを評価するように設計されている。
論文参考訳（メタデータ） (2025-04-29T11:57:23Z)
LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。 LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。 RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文参考訳（メタデータ） (2025-02-14T08:04:22Z)
Correctness Assessment of Code Generated by Large Language Models Using Internal Representations [4.32362000083889]
大規模言語モデル(LLM)が生成するコードの正確性を評価する新しいフレームワークであるOPENIAを紹介する。我々の経験的分析により、これらの内部表現が潜時情報を符号化し、生成したコードの正しさと強く相関していることが明らかとなった。 OPENIAはベースラインモデルより一貫して優れており、高い精度、精度、リコール、F1スコアを実現し、スタンドアロンコード生成の最大2倍の改善を実現している。
論文参考訳（メタデータ） (2025-01-22T15:04:13Z)
A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。 30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。 FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文参考訳（メタデータ） (2024-11-27T03:25:44Z)
Precision or Peril: Evaluating Code Quality from Quantized Large Language Models [0.5249805590164902]
量子化は、大規模言語モデルのメモリオーバーヘッドを軽減する手段として登場した。本研究の目的は、様々なメトリクスを用いて、より小さなLCMのコード生成能力を評価することである。
論文参考訳（メタデータ） (2024-11-16T01:31:29Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
LLM-CI: Assessing Contextual Integrity Norms in Language Models [1.1715858161748576]
大規模言語モデル(LLM)は、社会的嗜好や規範を意図せずに符号化することができる。これは、プロンプトの感度が$$$$小であることから特に困難である。 LLM-CIは、符号化された規範を評価するための最初のオープンソースフレームワークである。
論文参考訳（メタデータ） (2024-09-05T17:50:31Z)
A Survey on Evaluating Large Language Models in Code Generation Tasks [30.256255254277914]
本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
論文参考訳（メタデータ） (2024-08-29T12:56:06Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文参考訳（メタデータ） (2024-05-20T14:34:01Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文参考訳（メタデータ） (2023-11-12T17:18:21Z)
CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。 GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文参考訳（メタデータ） (2023-09-05T04:12:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。