論文の概要: CodeGolf Bench: A Multi-Language Benchmark for Evaluating Concise Code Generation Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2605.30394v1
- Date: Thu, 28 May 2026 13:48:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.139506
- Title: CodeGolf Bench: A Multi-Language Benchmark for Evaluating Concise Code Generation Capabilities of Large Language Models
- Title(参考訳): CodeGolf Bench: 大規模言語モデルの簡潔コード生成能力を評価するための多言語ベンチマーク
- Authors: Vedant Padwal,
- Abstract要約: 本稿では,60のプログラミング言語において,Large Language Models (LLM) の簡潔なコード生成能力を評価可能なベンチマークであるCode Benchを紹介する。
コードゴルフ(code golf)は、最小限のキャラクタやバイトソリューションに焦点を当てたレクリエーションプログラミングコンペティションである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Code Bench, a benchmark capable of evaluating Large Language Models (LLMs) concise code generation abilities in 60 programming languages. Based on code golf, a recreational programming competition focused on minimal character or byte solutions, the benchmark provides a distinctive measure of LLMs ability to produce efficient, concise code. Unlike existing benchmarks limited by fixed problem sets and language coverage, CodeGolf Bench leverages the code.golf platform to provide new problems and live human performance baselines. Evaluation of nine LLMs on Python and C++ tasks demonstrates that reasoning models significantly outperform non-reasoning models, achieving best average percentile of 70.97%. This performance gap is particularly pronounced in C++, highlighting reasoning's importance for languages with strict syntax requirements. Non-reasoning models struggle more with efficiency optimization across both languages, with best percentiles significantly lower than reasoning counterparts. CodeGolf Bench offers a dynamic framework for evaluating LLM code generation capabilities against evolving human performance on code golf.
- Abstract(参考訳): 本稿では,60のプログラミング言語において,Large Language Models (LLM) の簡潔なコード生成能力を評価可能なベンチマークであるCode Benchを紹介する。
コードゴルフ(code golf)は、最小限のキャラクタやバイトソリューションに焦点を当てたレクリエーションプログラミングコンペティションである。
固定された問題セットと言語カバレッジに制限された既存のベンチマークとは異なり、CodeGolf BenchはCode.golfプラットフォームを活用して、新しい問題と人間のパフォーマンスのベースラインをライブで提供する。
Python と C++ のタスクにおける 9 つの LLM の評価は、推論モデルが非推論モデルを大幅に上回っており、平均パーセンタイルが 70.97% であることを示している。
このパフォーマンスギャップは特にC++で顕著であり、厳密な構文要件を持つ言語に対する推論の重要性を強調している。
非推論モデルは、両方の言語で効率の最適化に苦しむが、最高のパーセンタイルは推論モデルよりも著しく低い。
CodeGolf Benchは、コードゴルフにおける人間のパフォーマンスの進化に対してLLMコード生成能力を評価するための動的フレームワークを提供する。
関連論文リスト
- CodeSimpleQA: Scaling Factuality in Code Large Language Models [55.705748501461294]
本稿では,コード関連質問への回答において,LLMの実際の精度を評価するための総合的なベンチマークであるCodeSimpleQAを提案する。
また,66万サンプルの大規模インストラクションコーパスであるCodeSimpleQA-Instructを作成し,教師付き微調整と強化学習を組み合わせたポストトレーニングフレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-22T14:27:17Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Multi-Programming Language Ensemble for Code Generation in Large Language Model [5.882816711878273]
大規模言語モデル(LLM)は、特にワンパスコード生成において、コード生成を大幅に改善した。
既存のアプローチのほとんどは、単一のプログラミング言語でコードを生成することだけに重点を置いており、LLMの多言語機能を活用する可能性を見越している。
本稿では,複数の言語にまたがるコード生成を利用して全体的な性能を向上させる,新しいアンサンブルに基づくMulti-Programming Language Ensemble (MPLE)を提案する。
論文 参考訳(メタデータ) (2024-09-06T08:31:18Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
CodeGRAGは、制御フローとそれらのデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミングドメインの知識をよりよく解釈する。
CodeGRAGはLLMのコード生成能力を大幅に改善し、言語間コード生成のパフォーマンス向上も実現している。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。