Fugu-MT 論文翻訳(概要): LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code

論文の概要: LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code

arxiv url: http://arxiv.org/abs/2403.07974v2
Date: Thu, 6 Jun 2024 17:41:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 20:52:38.464754
Title: LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code
Title（参考訳）: LiveCodeBench: コードのための大規模言語モデルの完全かつ汚染のない評価
Authors: Naman Jain, King Han, Alex Gu, Wen-Ding Li, Fanjia Yan, Tianjun Zhang, Sida Wang, Armando Solar-Lezama, Koushik Sen, Ion Stoica,
Abstract要約: コード関連アプリケーションに適用される大規模言語モデルは、顕著な分野として現れている。既存の評価ベンチマーク(HumanEval、MBPPなど)は、もはやその能力を評価するには不十分である。コードに対するLLMの包括的で汚染のない評価手法であるLiveCodeBenchを提案する。
参考スコア（独自算出の注目度）: 34.03774442237902
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) applied to code-related applications have emerged as a prominent field, attracting significant interest from both academia and industry. However, as new and improved LLMs are developed, existing evaluation benchmarks (e.g., HumanEval, MBPP) are no longer sufficient for assessing their capabilities. In this work, we propose LiveCodeBench, a comprehensive and contamination-free evaluation of LLMs for code, which continuously collects new problems over time from contests across three competition platforms, namely LeetCode, AtCoder, and CodeForces. Notably, our benchmark also focuses on a broader range of code related capabilities, such as self-repair, code execution, and test output prediction, beyond just code generation. Currently, LiveCodeBench hosts four hundred high-quality coding problems that were published between May 2023 and May 2024. We have evaluated 18 base LLMs and 34 instruction-tuned LLMs on LiveCodeBench. We present empirical findings on contamination, holistic performance comparisons, potential overfitting in existing benchmarks as well as individual model comparisons. We will release all prompts and model completions for further community analysis, along with a general toolkit for adding new scenarios and model
Abstract（参考訳）: コード関連アプリケーションに適用される大規模言語モデル(LLM)が目覚ましい分野として現れ、学術と産業の両方から大きな関心を集めている。しかし、新しいLLMが開発されるにつれて、既存の評価ベンチマーク(例えば、HumanEval、MBPP)は、その能力を評価するのに十分ではない。本研究では,コードに対するLLMの包括的かつ汚染のない評価であるLiveCodeBenchを提案する。これは,LeetCode,AtCoder,CodeForcesという3つの競合プラットフォームを対象としたコンテストから,時間とともに新たな問題を収集するものだ。特に、我々のベンチマークは、コード生成だけでなく、自己修復、コード実行、テスト出力予測など、幅広いコード関連機能にも焦点を当てています。現在、LiveCodeBenchは、2023年5月から2024年5月までに発行された400の高品質なコーディング問題をホストしている。我々はLiveCodeBench上で18のベースLLMと34の命令調整LDMを評価した。本稿では, 汚染, 総合的な性能比較, 既存ベンチマークの過度なオーバーフィット, および個別モデル比較に関する実証的な知見を示す。新たなシナリオとモデルを追加するための汎用ツールキットとともに、コミュニティ分析のためのすべてのプロンプトとモデル補完をリリースします。

関連論文リスト

CONCUR: Benchmarking LLMs for Concurrent Code Generation [3.386685695989279]
コード生成にLLM(Large Language Models)を活用することは、ソフトウェア工学の分野において、共通のプラクティスとして現れつつある。既存のベンチマークは主にシーケンシャルなコードに焦点を当てており、並行コード生成でLLMを効果的に評価する能力がない。このギャップに対処するため、並列コードを生成するLLMの能力を評価するためのベンチマークCONCURを設計した。
論文参考訳（メタデータ） (2026-03-04T03:22:26Z)
Evaluating and Achieving Controllable Code Completion in Code LLM [89.64782747840225]
命令誘導型コード補完ベンチマークである制御可能コード補完ベンチマーク(C3-Bench)を提案する。コード補完作業中に,オープンソースのプロプライエタリモデルと高度なプロプライエタリモデルの間に,命令追従機能にかなりのギャップがあることを明らかにする。結果として得られたQwen2.5-Coder-C3は、C3-Bench上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-01-22T11:40:04Z)
BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution [68.95247403447051]
BigCodeArenaは、包括的でオンザフライな実行環境を背景とした、コード生成のためのオープンなヒューマン評価プラットフォームである。 10の言語と8種類の実行環境にまたがる10のLLMで14,000以上の生のコード中心の会話セッションを収集しました。 BigCodeRewardでは、4700件の会話を後処理し、報酬モデルと人間の好みの一貫性を評価した。
論文参考訳（メタデータ） (2025-10-09T18:01:47Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
ProBench: Benchmarking Large Language Models in Competitive Programming [44.09445715541973]
競合プログラミングにおける大規模言語モデル(LLM)のベンチマークを行うためにProBenchを提案する。 ProBenchはCodeforces、Luogu、Nowcoderプラットフォームから包括的な競合プログラミング問題を収集している。我々は,思考連鎖解析,誤り型診断,推論深度評価など,多次元の競合プログラミングにおける9つの最新のLCMを評価した。
論文参考訳（メタデータ） (2025-02-28T09:12:42Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
FairCoder: Evaluating Social Bias of LLMs in Code Generation [25.358230310973248]
コード生成における社会的バイアスを評価するための新しいベンチマークであるFairCoderを紹介する。このベンチマークでは、フェアネスのパフォーマンスを評価するために、3つのメトリクスが設計されている。その結果、全てのLSMが社会的偏見を示すことが明らかとなった。
論文参考訳（メタデータ） (2025-01-09T17:42:23Z)
CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。 CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文参考訳（メタデータ） (2025-01-02T13:49:00Z)
Evaluating and Aligning CodeLLMs on Human Preference [42.26173776584043]
実世界のコーディングタスクの複雑さと多様性をエミュレートするために,厳密な人為的なベンチマークであるCodeArenaを提案する。また,大規模合成命令微調整の有効性を検証するために,多種多様な合成命令コーパスSynCode-Instructを提案する。その結果、実行ベースのベンチマークとCodeArenaのパフォーマンスの違いが判明した。
論文参考訳（メタデータ） (2024-12-06T17:40:38Z)
ComplexCodeEval: A Benchmark for Evaluating Large Code Models on More Complex Code [29.178248778212588]
ComplexCodeEvalは、様々な開発タスクで大きな言語モデル(LLM)を評価するために設計されたベンチマークである。これには、上位のGitHubリポジトリから3,897のJavaサンプルと7,184のPythonサンプルが含まれている。
論文参考訳（メタデータ） (2024-09-16T13:43:04Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文参考訳（メタデータ） (2024-06-27T16:47:42Z)
Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。コード推論は、コードLLMの最も重要な能力の1つである。本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文参考訳（メタデータ） (2024-03-25T05:37:16Z)
DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。 GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
The Program Testing Ability of Large Language Models for Code [27.590499335039972]
CodeXやCodeT5+のようなコードのための大きな言語モデル(LLM)は、コードインテリジェンスを達成する上で大きな可能性を実証しています。本稿では、これらのモデルの興味深い特性のシリーズを示し、LLMのプログラムテスト能力をいかに改善できるかを示す。
論文参考訳（メタデータ） (2023-10-09T13:55:45Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。