論文の概要: LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?
- arxiv url: http://arxiv.org/abs/2506.11928v1
- Date: Fri, 13 Jun 2025 16:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.876914
- Title: LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?
- Title(参考訳): LiveCodeBench Pro: 競合プログラミングにおいて、どのようにしてオリンピアードのメダリストはLLMを判断するか?
- Authors: Zihan Zheng, Zerui Cheng, Zeyu Shen, Shang Zhou, Kaiyuan Liu, Hansen He, Dongruixuan Li, Stanley Wei, Hangyi Hao, Jianzhu Yao, Peiyao Sheng, Zixuan Wang, Wenhao Chai, Aleksandra Korolova, Peter Henderson, Sanjeev Arora, Pramod Viswanath, Jingbo Shang, Saining Xie,
- Abstract要約: 大規模言語モデル(LLM)は、競争力のあるプログラミングにおいてエリート人間より優れています。
我々はこの主張を再考し、LLMが人間の専門家とどのように異なるのか、そしてまだ限界が残っているのかを考察する。
私たちは、Codeforces、ICPC、IOIの問題からなるベンチマークであるLiveCodeBench Proを紹介します。
オリンピアードのメダリストのチームはアルゴリズムカテゴリーのあらゆる問題に注釈を付け、失敗したモデル生成の提出をライン・バイ・ラインで分析する。
- 参考スコア(独自算出の注目度): 88.29001498765629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent reports claim that large language models (LLMs) now outperform elite humans in competitive programming. Drawing on knowledge from a group of medalists in international algorithmic contests, we revisit this claim, examining how LLMs differ from human experts and where limitations still remain. We introduce LiveCodeBench Pro, a benchmark composed of problems from Codeforces, ICPC, and IOI that are continuously updated to reduce the likelihood of data contamination. A team of Olympiad medalists annotates every problem for algorithmic categories and conducts a line-by-line analysis of failed model-generated submissions. Using this new data and benchmark, we find that frontier models still have significant limitations: without external tools, the best model achieves only 53% pass@1 on medium-difficulty problems and 0% on hard problems, domains where expert humans still excel. We also find that LLMs succeed at implementation-heavy problems but struggle with nuanced algorithmic reasoning and complex case analysis, often generating confidently incorrect justifications. High performance appears largely driven by implementation precision and tool augmentation, not superior reasoning. LiveCodeBench Pro thus highlights the significant gap to human grandmaster levels, while offering fine-grained diagnostics to steer future improvements in code-centric LLM reasoning.
- Abstract(参考訳): 最近の報告では、大きな言語モデル(LLM)は競争力のあるプログラミングにおいてエリート人間より優れています。
国際アルゴリズムコンテストのメダリストグループからの知識に基づいて、私たちはこの主張を再考し、LLMが人間の専門家とどのように異なるのか、そして、どの制限がまだ残っているのかを調べます。
このベンチマークは、Codeforces、ICPC、IOIなどのデータ汚染の可能性を抑えるために継続的に更新される。
オリンピアードのメダリストのチームはアルゴリズムカテゴリーのあらゆる問題に注釈を付け、失敗したモデル生成の提出をライン・バイ・ラインで分析する。
新たなデータとベンチマークを使用することで、フロンティアモデルにはまだ大きな制限があることが分かりました。外部ツールがなければ、最高のモデルでは、中規模微分問題では53%のpass@1しか達成できません。
また、LLMは実装に重きを置く問題に成功するが、アルゴリズム推論や複雑なケース解析に苦慮し、しばしば確実な誤った正当性を生成する。
高いパフォーマンスは、実装の正確さとツールの強化が主な要因であり、優れた推論ではない。
これにより、LiveCodeBench Proは、人間のグランドマスターレベルに対する大きなギャップを強調し、コード中心のLLM推論における将来の改善を後押しする、きめ細かい診断を提供する。
関連論文リスト
- OIBench: Benchmarking Strong Reasoning Models with Olympiad in Informatics [13.049841309304922]
本稿では,OIBenchについて紹介する。OIBenchは高品質でプライベートで,250個の厳格なオリジナル問題からなる,オリンピックレベルの情報データセットである。
ベンチマークの構築手法を詳述し、様々なプログラミングパラダイムや複雑さの包括的評価を確実にする。
我々は,よりきめ細かな効率解析のための時間/空間補完曲線を提案し,直接人-モデル比較を可能にする。
論文 参考訳(メタデータ) (2025-06-12T08:33:38Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z) - WarriorCoder: Learning from Expert Battles to Augment Code Large Language Models [67.15146980023621]
WarriorCoderは、専門家の戦いから学んだ新しいパラダイムで、現在のアプローチの限界に対処する。
我々は、専門家のLLMが互いに挑戦する場を作り、公平な審査員による評価を行う。
この競争フレームワークは、すべての参加者の強みを活用して、ゼロから新しいトレーニングデータを生成する。
論文 参考訳(メタデータ) (2024-12-23T08:47:42Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For
Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。
高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。
さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文 参考訳(メタデータ) (2023-05-24T11:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。