論文の概要: OJBench: A Competition Level Code Benchmark For Large Language Models
- arxiv url: http://arxiv.org/abs/2506.16395v1
- Date: Thu, 19 Jun 2025 15:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.133324
- Title: OJBench: A Competition Level Code Benchmark For Large Language Models
- Title(参考訳): OJBench: 大規模言語モデルのための競合レベルのコードベンチマーク
- Authors: Zhexu Wang, Yiping Liu, Yejie Wang, Wenyang He, Bofei Gao, Muxi Diao, Yanxu Chen, Kelin Fu, Flood Sung, Zhilin Yang, Tianyu Liu, Weiran Xu,
- Abstract要約: OJBenchは、大規模言語モデル(LLM)の競合レベルのコード推論能力を評価するために設計された、新しくて挑戦的なベンチマークである。
我々は,オープンソースモデルとオープンソースモデルの両方,推論指向モデルと非推論指向モデルを含む37モデルに対して,OJBenchを用いた包括的評価を行う。
以上の結果から,o4-miniやGemini-2.5-pro-expといった最先端の推論指向モデルでさえ,競争レベルの問題に悩まされていることが示唆された。
- 参考スコア(独自算出の注目度): 23.061564017225734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have demonstrated significant progress in math and code reasoning capabilities. However, existing code benchmark are limited in their ability to evaluate the full spectrum of these capabilities, particularly at the competitive level. To bridge this gap, we introduce OJBench, a novel and challenging benchmark designed to assess the competitive-level code reasoning abilities of LLMs. OJBench comprises 232 programming competition problems from NOI and ICPC, providing a more rigorous test of models' reasoning skills. We conducted a comprehensive evaluation using OJBench on 37 models, including both closed-source and open-source models, reasoning-oriented and non-reasoning-oriented models. Our results indicate that even state-of-the-art reasoning-oriented models, such as o4-mini and Gemini-2.5-pro-exp, struggle with highly challenging competition-level problems. This highlights the significant challenges that models face in competitive-level code reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、数学とコード推論能力に大きな進歩を見せている。
しかし、既存のコードベンチマークは、これらの機能の完全なスペクトル、特に競合レベルでの評価能力に制限がある。
このギャップを埋めるために、私たちは、LLMの競合レベルのコード推論能力を評価するために設計された、新しくて挑戦的なベンチマークであるOJBenchを紹介します。
OJBenchはNOIとICPCの232のプログラミング競合問題を含み、モデルの推論スキルをより厳格にテストする。
我々は,オープンソースモデルとオープンソースモデル,推論指向モデルと非推論指向モデルの両方を含む37モデルに対して,OJBenchを用いた包括的な評価を行った。
以上の結果から,o4-miniやGemini-2.5-pro-expといった最先端の推論指向モデルでさえ,競争レベルの問題に悩まされていることが示唆された。
これは、競合レベルのコード推論においてモデルが直面する重要な課題を強調します。
関連論文リスト
- LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? [88.29001498765629]
大規模言語モデル(LLM)は、競争力のあるプログラミングにおいてエリート人間より優れています。
我々はこの主張を再考し、LLMが人間の専門家とどのように異なるのか、そしてまだ限界が残っているのかを考察する。
私たちは、Codeforces、ICPC、IOIの問題からなるベンチマークであるLiveCodeBench Proを紹介します。
オリンピアードのメダリストのチームはアルゴリズムカテゴリーのあらゆる問題に注釈を付け、失敗したモデル生成の提出をライン・バイ・ラインで分析する。
論文 参考訳(メタデータ) (2025-06-13T16:29:09Z) - Evaluating Large Language Models on the Frame and Symbol Grounding Problems: A Zero-shot Benchmark [0.0]
フレーム問題とシンボルグラウンド問題(英語版)は歴史的に、伝統的なシンボルAIシステムでは解決不可能と見なされてきた。
本研究では,現代のLSMがこれらの問題に対処するために必要な認知能力を持っているかを検討する。
論文 参考訳(メタデータ) (2025-06-09T16:12:47Z) - ICPC-Eval: Probing the Frontiers of LLM Reasoning with Competitive Programming Contests [85.72404266850982]
推論のフロンティアを探索するために設計されたトップレベルの競合コーディングベンチマークである textbfICPC-Eval を提案する。
ICPC-Evalは、世界中の各地域で開催されている11のICPCコンテストから、118の慎重にキュレートされた問題を含んでいる。
結果は、複雑な推論能力を評価する上で重要な課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-05T11:20:37Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - ProBench: Benchmarking Large Language Models in Competitive Programming [44.09445715541973]
競合プログラミングにおける大規模言語モデル(LLM)のベンチマークを行うためにProBenchを提案する。
ProBenchはCodeforces、Luogu、Nowcoderプラットフォームから包括的な競合プログラミング問題を収集している。
我々は,思考連鎖解析,誤り型診断,推論深度評価など,多次元の競合プログラミングにおける9つの最新のLCMを評価した。
論文 参考訳(メタデータ) (2025-02-28T09:12:42Z) - CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。