論文の概要: Humanity's Last Code Exam: Can Advanced LLMs Conquer Human's Hardest Code Competition?
- arxiv url: http://arxiv.org/abs/2506.12713v1
- Date: Sun, 15 Jun 2025 04:03:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.715182
- Title: Humanity's Last Code Exam: Can Advanced LLMs Conquer Human's Hardest Code Competition?
- Title(参考訳): 人間性の最後のコードエグザム:先進的なLLMは人間の最も厳しいコード競争に勝てるか?
- Authors: Xiangyang Li, Xiaopeng Li, Kuicai Dong, Quanhu Zhang, Rongju Ruan, Xinyi Dai, Xiaoshuang Liu, Shengchun Xu, Yasheng Wang, Ruiming Tang,
- Abstract要約: Humanity's Last Code Exam (HLCE) は、ICPC World Finals (International Collegiate Programming Contest) と International Olympiad in Informatics (IOI) の235の最も難しい問題で構成されている。
HLCEの一部として、完全に再現可能な評価を保証する、調和したオンラインオフラインサンドボックスを設計する。
最強の理由である o4-mini(high) と Gemini-2.5 Pro でさえ,それぞれ 15.9% と 11.4% のパス@1 レートを達成した。
- 参考スコア(独自算出の注目度): 39.99519977079694
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Code generation is a core capability of large language models (LLMs), yet mainstream benchmarks (e.g., APPs and LiveCodeBench) contain questions with medium-level difficulty and pose no challenge to advanced LLMs. To better reflected the advanced reasoning and code generation ability, We introduce Humanity's Last Code Exam (HLCE), comprising 235 most challenging problems from the International Collegiate Programming Contest (ICPC World Finals) and the International Olympiad in Informatics (IOI) spanning 2010 - 2024. As part of HLCE, we design a harmonized online-offline sandbox that guarantees fully reproducible evaluation. Through our comprehensive evaluation, we observe that even the strongest reasoning LLMs: o4-mini(high) and Gemini-2.5 Pro, achieve pass@1 rates of only 15.9% and 11.4%, respectively. Meanwhile, we propose a novel "self-recognition" task to measure LLMs' awareness of their own capabilities. Results indicate that LLMs' self-recognition abilities are not proportionally correlated with their code generation performance. Finally, our empirical validation of test-time scaling laws reveals that current advanced LLMs have substantial room for improvement on complex programming tasks. We expect HLCE to become a milestone challenge for code generation and to catalyze advances in high-performance reasoning and human-AI collaborative programming. Our code and dataset are also public available(https://github.com/Humanity-s-Last-Code-Exam/HLCE).
- Abstract(参考訳): コード生成は、大規模言語モデル(LLM)の中核的な機能であるが、主要なベンチマーク(APP、LiveCodeBenchなど)には、中程度の難易度の問題が含まれており、高度なLLMには問題がない。
先進的な推論とコード生成能力をよりよく反映するために、2010年から2024年までのICPC World FinalsとIOI(International Olympiad in Informatics)の235の最も難しい問題を含む、HumanityのLast Code Exam(HLCE)を紹介します。
HLCEの一部として、完全に再現可能な評価を保証する、調和したオンラインオフラインサンドボックスを設計する。
包括的評価により、最強の理由であるo4-mini(high)とGemini-2.5 Proでさえ、それぞれ15.9%と11.4%のパス@1の割合で達成していることがわかった。
一方,LLMの自己認知能力に対する意識を測定するための新しい「自己認識」タスクを提案する。
その結果,LLMの自己認識能力はコード生成性能と比例しないことがわかった。
最後に、テスト時間スケーリング法則の実証検証により、現在の高度なLCMは複雑なプログラミングタスクを改善する余地があることが判明した。
HLCEはコード生成において画期的な課題となり、高性能な推論と人間とAIの協調プログラミングの進歩を触媒することを期待しています。
私たちのコードとデータセットも公開されている(https://github.com/Humanity-s-Last-Code-Exam/HLCE)。
関連論文リスト
- LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? [88.29001498765629]
大規模言語モデル(LLM)は、競争力のあるプログラミングにおいてエリート人間より優れています。
我々はこの主張を再考し、LLMが人間の専門家とどのように異なるのか、そしてまだ限界が残っているのかを考察する。
私たちは、Codeforces、ICPC、IOIの問題からなるベンチマークであるLiveCodeBench Proを紹介します。
オリンピアードのメダリストのチームはアルゴリズムカテゴリーのあらゆる問題に注釈を付け、失敗したモデル生成の提出をライン・バイ・ラインで分析する。
論文 参考訳(メタデータ) (2025-06-13T16:29:09Z) - How to Get Your LLM to Generate Challenging Problems for Evaluation [33.625052642068624]
CHASEは、大規模言語モデルを用いて、難しい問題を合成的に生成する統合フレームワークである。
評価ベンチマークを作成するためにCHASEを実装している。
これらのベンチマークにおける最先端のLCMの性能は、40-60%の精度の範囲にある。
論文 参考訳(メタデータ) (2025-02-20T16:09:55Z) - CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z) - LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code [34.03774442237902]
コード関連アプリケーションに適用される大規模言語モデルは、顕著な分野として現れている。
既存の評価ベンチマーク(HumanEval、MBPPなど)は、もはやその能力を評価するには不十分である。
コードに対するLLMの包括的で汚染のない評価手法であるLiveCodeBenchを提案する。
論文 参考訳(メタデータ) (2024-03-12T17:58:04Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。