論文の概要: UA-Code-Bench: A Competitive Programming Benchmark for Evaluating LLM Code Generation in Ukrainian
- arxiv url: http://arxiv.org/abs/2511.05040v1
- Date: Fri, 07 Nov 2025 07:24:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.70199
- Title: UA-Code-Bench: A Competitive Programming Benchmark for Evaluating LLM Code Generation in Ukrainian
- Title(参考訳): UA-Code-Bench: ウクライナにおけるLLMコード生成評価のための競合プログラミングベンチマーク
- Authors: Mykyta Syromiatnikov, Victoria Ruvinskaya,
- Abstract要約: 本稿では,ウクライナにおける言語モデルのコード生成と競合するプログラム問題解決能力の徹底的な評価を目的とした,新しいオープンソースベンチマークであるUA-Code-Benchを紹介する。
ベンチマークには、Eolympプラットフォームから500の問題が含まれており、非常に簡単なものから非常に難しいものまで、5つの複雑性レベルに均等に分散している。
その結果,OpenAI o3 や GPT-5 のようなトップパフォーマンスモデルでさえ,その半分しか解けていないことがわかった。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the real capabilities of large language models in low-resource languages still represents a challenge, as many existing benchmarks focus on widespread tasks translated from English or evaluate only simple language understanding. This paper introduces UA-Code-Bench, a new open-source benchmark established for a thorough evaluation of language models' code generation and competitive programming problem-solving abilities in Ukrainian. The benchmark comprises 500 problems from the Eolymp platform, evenly distributed across five complexity levels from very easy to very hard. A diverse set of 13 leading proprietary and open-source models, generating Python solutions based on a one-shot prompt, was evaluated via the dedicated Eolymp environment against hidden tests, ensuring code correctness. The obtained results reveal that even top-performing models, such as OpenAI o3 and GPT-5, solve only half of the problems, highlighting the challenge of code generation in low-resource natural language. Furthermore, this research presents a comprehensive analysis of performance across various difficulty levels, as well as an assessment of solution uniqueness and computational efficiency, measured by both elapsed time and memory consumption of the generated solutions. In conclusion, this work demonstrates the value of competitive programming benchmarks in evaluating large language models, especially in underrepresented languages. It also paves the way for future research on multilingual code generation and reasoning-enhanced models. The benchmark, data parsing, preparation, code generation, and evaluation scripts are available at https://huggingface.co/datasets/NLPForUA/ua-code-bench.
- Abstract(参考訳): 低リソース言語における大規模言語モデルの実際の能力を評価することは、多くの既存のベンチマークが英語から翻訳された幅広いタスクに焦点を当てたり、単純な言語理解のみを評価するため、依然として課題である。
本稿では,ウクライナにおける言語モデルのコード生成と競合するプログラム問題解決能力の徹底的な評価を目的とした,新しいオープンソースベンチマークであるUA-Code-Benchを紹介する。
ベンチマークには、Eolympプラットフォームから500の問題が含まれており、非常に簡単なものから非常に難しいものまで、5つの複雑性レベルに均等に分散している。
ワンショットプロンプトに基づいてPythonソリューションを生成する、プロプライエタリでオープンソースの13のさまざまなモデルセットが、隠されたテストに対して専用のEolymp環境を通じて評価され、コードの正しさが保証された。
その結果,OpenAI o3 や GPT-5 のようなトップパフォーマンスモデルでさえ,その半分の問題を解き,低リソース自然言語におけるコード生成の課題を浮き彫りにした。
さらに, 様々な難易度における性能の包括的解析を行い, 生成した解の経過時間とメモリ消費の両面から, 解の一意性と計算効率の評価を行った。
結論として、この研究は、特に表現不足言語における大規模言語モデルの評価において、競合するプログラミングベンチマークの価値を示す。
また、多言語コード生成と推論強化モデルに関する将来の研究の道を開く。
ベンチマーク、データ解析、準備、コード生成、評価スクリプトはhttps://huggingface.co/datasets/NLPForUA/ua-code-bench.orgにある。
関連論文リスト
- Evaluating LLMs' Multilingual Capabilities for Bengali: Benchmark Creation and Performance Analysis [0.0]
ベンガル語はNLP研究においてあまり表現されていない言語である。
ベンガルのNLP性能を阻害する課題を系統的に検討する。
ベンガル語では英語と比較して一貫した性能差がみられた。
論文 参考訳(メタデータ) (2025-07-31T05:16:43Z) - A Preliminary Study of Multilingual Code Language Models for Code Generation Task Using Translated Benchmarks [0.0]
コード生成のために構築されたオープンソースの多言語CLMであるPoly-Coderの性能を評価する。
以上の結果から,これらのベンチマークで得られた結果は,トレーニングフェーズで使用する評価指標とよく一致していることがわかった。
これらの初期の洞察は、より包括的な実証研究の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-11-23T06:40:47Z) - mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。
我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。
我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文 参考訳(メタデータ) (2024-10-19T08:44:26Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - ICE-Score: Instructing Large Language Models to Evaluate Code [7.556444391696562]
コードアセスメントのための大規模言語モデルに基づく新しい評価指標であるtextttICE-Score を提案する。
提案手法は,機能的正しさと人的嗜好との相関性に優れ,既存のアプローチの限界に対処する。
以上の結果から,コード生成の最先端の指標を超越した結果が得られた。
論文 参考訳(メタデータ) (2023-04-27T16:38:17Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。