Fugu-MT 論文翻訳(概要): CodeGolf Bench: A Multi-Language Benchmark for Evaluating Concise Code Generation Capabilities of Large Language Models

論文の概要: CodeGolf Bench: A Multi-Language Benchmark for Evaluating Concise Code Generation Capabilities of Large Language Models

arxiv url: http://arxiv.org/abs/2605.30394v1
Date: Thu, 28 May 2026 13:48:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-01 20:56:50.139506
Title: CodeGolf Bench: A Multi-Language Benchmark for Evaluating Concise Code Generation Capabilities of Large Language Models
Title（参考訳）: CodeGolf Bench: 大規模言語モデルの簡潔コード生成能力を評価するための多言語ベンチマーク
Authors: Vedant Padwal,
Abstract要約: 本稿では,60のプログラミング言語において,Large Language Models (LLM) の簡潔なコード生成能力を評価可能なベンチマークであるCode Benchを紹介する。コードゴルフ(code golf)は、最小限のキャラクタやバイトソリューションに焦点を当てたレクリエーションプログラミングコンペティションである。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces Code Bench, a benchmark capable of evaluating Large Language Models (LLMs) concise code generation abilities in 60 programming languages. Based on code golf, a recreational programming competition focused on minimal character or byte solutions, the benchmark provides a distinctive measure of LLMs ability to produce efficient, concise code. Unlike existing benchmarks limited by fixed problem sets and language coverage, CodeGolf Bench leverages the code.golf platform to provide new problems and live human performance baselines. Evaluation of nine LLMs on Python and C++ tasks demonstrates that reasoning models significantly outperform non-reasoning models, achieving best average percentile of 70.97%. This performance gap is particularly pronounced in C++, highlighting reasoning's importance for languages with strict syntax requirements. Non-reasoning models struggle more with efficiency optimization across both languages, with best percentiles significantly lower than reasoning counterparts. CodeGolf Bench offers a dynamic framework for evaluating LLM code generation capabilities against evolving human performance on code golf.
Abstract（参考訳）: 本稿では,60のプログラミング言語において,Large Language Models (LLM) の簡潔なコード生成能力を評価可能なベンチマークであるCode Benchを紹介する。コードゴルフ(code golf)は、最小限のキャラクタやバイトソリューションに焦点を当てたレクリエーションプログラミングコンペティションである。固定された問題セットと言語カバレッジに制限された既存のベンチマークとは異なり、CodeGolf BenchはCode.golfプラットフォームを活用して、新しい問題と人間のパフォーマンスのベースラインをライブで提供する。 Python と C++ のタスクにおける 9 つの LLM の評価は、推論モデルが非推論モデルを大幅に上回っており、平均パーセンタイルが 70.97% であることを示している。このパフォーマンスギャップは特にC++で顕著であり、厳密な構文要件を持つ言語に対する推論の重要性を強調している。非推論モデルは、両方の言語で効率の最適化に苦しむが、最高のパーセンタイルは推論モデルよりも著しく低い。 CodeGolf Benchは、コードゴルフにおける人間のパフォーマンスの進化に対してLLMコード生成能力を評価するための動的フレームワークを提供する。

論文の概要: CodeGolf Bench: A Multi-Language Benchmark for Evaluating Concise Code Generation Capabilities of Large Language Models

関連論文リスト