論文の概要: AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions
- arxiv url: http://arxiv.org/abs/2508.16402v1
- Date: Fri, 22 Aug 2025 14:04:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.403885
- Title: AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions
- Title(参考訳): AetherCode: プレミアプログラミングコンペティションでLLMが勝つ能力を評価する
- Authors: Zihan Wang, Jiaze Chen, Zhicheng Liu, Markus Mak, Yidi Du, Geonsik Moon, Luoqi Xu, Aaron Tua, Kunshuo Peng, Jiayi Lu, Mingfei Xia, Boqian Zou, Chenyang Ran, Guang Tian, Shoutai Zhu, Yeheng Duan, Zhenghui Kang, Zhenxing Lin, Shangshu Li, Qiang Luo, Qingshen Long, Zhiyong Chen, Yihan Xiao, Yurong Wu, Daoguang Zan, Yuyi Fu, Mingxuan Wang, Ming Ding,
- Abstract要約: 競合プログラミングは、LLM(Large Language Models)の推論とコーディング能力を評価するための重要なベンチマークとして登場した。
現在の評価は、LLMとエリートな人間プログラマの間にかなりのギャップを隠蔽する、状態モデル習熟度を超越している、と我々は主張する。
我々は、IOIやI CPCといった主要なプログラミングコンペティションから問題を引き出す新しいベンチマークであるAetherCodeを紹介する。
- 参考スコア(独自算出の注目度): 37.21656149034477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Competitive programming has emerged as a critical benchmark for evaluating the reasoning and coding capabilities of Large Language Models (LLMs). Despite impressive progress on existing benchmarks, we argue that current evaluations overstate model proficiency, masking a substantial gap between LLMs and elite human programmers. This gap arises from two key limitations: insufficient difficulty and scope of benchmark problems, and evaluation bias from low-quality test cases. To address these shortcomings, we present AetherCode, a new benchmark that draws problems from premier programming competitions such as IOI and ICPC, offering broader coverage and higher difficulty. AetherCode further incorporates comprehensive, expert-validated test suites built through a hybrid of automated generation and human curation, ensuring rigorous and reliable assessment. By combining challenging problem design with robust evaluation, AetherCode provides a more faithful measure of LLM capabilities and sets a new standard for future research in code reasoning.
- Abstract(参考訳): 競合プログラミングは、LLM(Large Language Models)の推論とコーディング能力を評価するための重要なベンチマークとして登場した。
既存のベンチマークでは目覚ましい進歩があったが、現在の評価はモデル習熟度を上回り、LLMと有能な人間プログラマの間にかなりのギャップを隠していると論じている。
このギャップは、ベンチマーク問題の難しさとスコープの不足、低品質のテストケースによる評価バイアスの2つの重要な制限から生じます。
これらの欠点に対処するため、私たちはIOIやICPCといった主要なプログラミングコンペティションから問題を引き出す新しいベンチマークであるAetherCodeを紹介します。
AetherCodeはさらに、自動生成と人的キュレーションのハイブリッドによって構築された、総合的で専門家公認のテストスイートも組み込まれており、厳格で信頼性の高い評価が保証されている。
挑戦的な問題設計と堅牢な評価を組み合わせることで、AetherCodeはLLMの能力をより忠実に測定し、将来のコード推論研究のための新しい標準を設定します。
関連論文リスト
- How Much Do Large Language Model Cheat on Evaluation? Benchmarking Overestimation under the One-Time-Pad-Based Framework [8.76693832650115]
大規模言語モデル(LLM)を評価する際の過大評価が懸念されている。
本稿では,暗号におけるワンタイムパッド暗号化にインスパイアされた動的評価フレームワークArxivRollを提案する。
論文 参考訳(メタデータ) (2025-07-25T12:39:03Z) - LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? [88.29001498765629]
大規模言語モデル(LLM)は、競争力のあるプログラミングにおいてエリート人間より優れています。
我々はこの主張を再考し、LLMが人間の専門家とどのように異なるのか、そしてまだ限界が残っているのかを考察する。
私たちは、Codeforces、ICPC、IOIの問題からなるベンチマークであるLiveCodeBench Proを紹介します。
オリンピアードのメダリストのチームはアルゴリズムカテゴリーのあらゆる問題に注釈を付け、失敗したモデル生成の提出をライン・バイ・ラインで分析する。
論文 参考訳(メタデータ) (2025-06-13T16:29:09Z) - ICPC-Eval: Probing the Frontiers of LLM Reasoning with Competitive Programming Contests [85.72404266850982]
推論のフロンティアを探索するために設計されたトップレベルの競合コーディングベンチマークである textbfICPC-Eval を提案する。
ICPC-Evalは、世界中の各地域で開催されている11のICPCコンテストから、118の慎重にキュレートされた問題を含んでいる。
結果は、複雑な推論能力を評価する上で重要な課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-05T11:20:37Z) - How to Get Your LLM to Generate Challenging Problems for Evaluation [33.625052642068624]
CHASEは、大規模言語モデルを用いて、難しい問題を合成的に生成する統合フレームワークである。
評価ベンチマークを作成するためにCHASEを実装している。
これらのベンチマークにおける最先端のLCMの性能は、40-60%の精度の範囲にある。
論文 参考訳(メタデータ) (2025-02-20T16:09:55Z) - CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。