論文の概要: Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models
- arxiv url: http://arxiv.org/abs/2407.11470v2
- Date: Wed, 9 Oct 2024 05:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 21:10:26.205754
- Title: Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models
- Title(参考訳): 正確性を超えて:大規模言語モデルのための多次元コード生成のベンチマーク
- Authors: Jiasheng Zheng, Boxi Cao, Zhengzhao Ma, Ruotong Pan, Hongyu Lin, Yaojie Lu, Xianpei Han, Le Sun,
- Abstract要約: 本稿では,大規模言語モデルが生成するコードの品質を包括的に評価する RACE ベンチマークを提案する。
RACEに基づいて28の代表的なLCMを分析し、現在の正しさ中心のベンチマークでは、実世界のシナリオにおけるコードの多面的要求をキャプチャできないことを発見した。
- 参考スコア(独自算出の注目度): 43.56644186785491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, researchers have proposed numerous benchmarks to evaluate the impressive coding capabilities of large language models (LLMs). However, current benchmarks primarily assess the accuracy of LLM-generated code, while neglecting other critical dimensions that also significantly impact code quality in real-world development. Moreover, relying exclusively on correctness as the guiding metric renders LLMs susceptible to data contamination. Therefore, this paper proposes the RACE benchmark, which comprehensively evaluates the quality of code generated by LLMs across 4 dimensions: Readability, mAintainability, Correctness, and Efficiency. Specifically, considering the demand-dependent nature of dimensions beyond correctness, we design various types of user requirements for each dimension to assess the model's ability to generate correct code that also meets user demands. We analyze 28 representative LLMs based on RACE and find that: 1) current correctness-centric benchmarks fail to capture the multifaceted requirements of code in real-world scenarios, while RACE provides a comprehensive evaluation that reveals the defects of LLMs across multiple dimensions; 2) the RACE benchmark serves as an effective tool for resisting the risk of data contamination; 3) even the most advanced code LLMs still encounter significant challenges in customized requirements involving complex instructions; 4) most LLMs exhibit an inherent preference for specific coding style. These findings highlight the need for a multidimensional evaluation of code LLMs, emphasizing metrics beyond correctness for real-world applications. Future efforts should aim to develop novel learning algorithms to enhance code generation under varied constraints and improve coverage and usability for diverse user needs.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の符号化能力を評価するために,多数のベンチマークが提案されている。
しかし、現在のベンチマークは主にLLM生成コードの精度を評価し、実際の開発においてコード品質に大きな影響を及ぼす他の重要な次元を無視している。
さらに、導出基準としてのみ正確性に依存すると、LLMはデータ汚染の影響を受けやすい。
そこで本研究では,可読性,mAintainability,正確性,効率性の4次元にわたってLLMが生成するコードの品質を総合的に評価するRASベンチマークを提案する。
具体的には、正確性を超えた次元の要求に依存した性質を考慮し、各次元に対する様々なタイプのユーザ要求を設計し、モデルがユーザ要求を満たす正しいコードを生成する能力を評価する。
RACEに基づく28の代表的なLCMを解析し,その有用性を見いだす。
1) 現在の正当性中心のベンチマークでは、実世界のシナリオにおけるコードの多面的要件を捉えることができず、一方 RACE では、複数の次元にわたる LLM の欠陥を明らかにする包括的な評価を行っている。
2 RACEベンチマークは、データ汚染のリスクに抵抗する有効なツールとして機能する。
3) 最も先進的なコード LLM でさえ,複雑な命令を含むカスタマイズ要求において,依然として重大な課題に直面している。
4)ほとんどのLLMは、特定のコーディングスタイルに固有の嗜好を示す。
これらの知見は、実世界のアプリケーションの正確性を超えたメトリクスを強調し、LLMの多次元評価の必要性を強調している。
今後の取り組みは、さまざまな制約の下でコード生成を強化し、多様なユーザニーズに対するカバレッジとユーザビリティを向上させるための、新しい学習アルゴリズムの開発を目標とする。
関連論文リスト
- Precision or Peril: Evaluating Code Quality from Quantized Large Language Models [0.5249805590164902]
量子化は、大規模言語モデルのメモリオーバーヘッドを軽減する手段として登場した。
本研究の目的は、様々なメトリクスを用いて、より小さなLCMのコード生成能力を評価することである。
論文 参考訳(メタデータ) (2024-11-16T01:31:29Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - LLM-CI: Assessing Contextual Integrity Norms in Language Models [1.1715858161748576]
大規模言語モデル(LLM)は、社会的嗜好や規範を意図せずに符号化することができる。
これは、プロンプトの感度が$$$$小であることから特に困難である。
LLM-CIは、符号化された規範を評価するための最初のオープンソースフレームワークである。
論文 参考訳(メタデータ) (2024-09-05T17:50:31Z) - A Survey on Evaluating Large Language Models in Code Generation Tasks [30.256255254277914]
本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。
自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
論文 参考訳(メタデータ) (2024-08-29T12:56:06Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。