論文の概要: ICPC-Eval: Probing the Frontiers of LLM Reasoning with Competitive Programming Contests
- arxiv url: http://arxiv.org/abs/2506.04894v1
- Date: Thu, 05 Jun 2025 11:20:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.676172
- Title: ICPC-Eval: Probing the Frontiers of LLM Reasoning with Competitive Programming Contests
- Title(参考訳): ICPC-Eval: LLM推論と競合プログラミングのコンテストのフロンティアを探る
- Authors: Shiyi Xu, Yiwen Hu, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Ji-Rong Wen,
- Abstract要約: 推論のフロンティアを探索するために設計されたトップレベルの競合コーディングベンチマークである textbfICPC-Eval を提案する。
ICPC-Evalは、世界中の各地域で開催されている11のICPCコンテストから、118の慎重にキュレートされた問題を含んでいる。
結果は、複雑な推論能力を評価する上で重要な課題を浮き彫りにした。
- 参考スコア(独自算出の注目度): 85.72404266850982
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the significant progress of large reasoning models in complex coding and reasoning tasks, existing benchmarks, like LiveCodeBench and CodeElo, are insufficient to evaluate the coding capabilities of large language models (LLMs) in real competition environments. Moreover, current evaluation metrics such as Pass@K fail to capture the reflective abilities of reasoning models. To address these challenges, we propose \textbf{ICPC-Eval}, a top-level competitive coding benchmark designed to probing the frontiers of LLM reasoning. ICPC-Eval includes 118 carefully curated problems from 11 recent ICPC contests held in various regions of the world, offering three key contributions: 1) A challenging realistic ICPC competition scenario, featuring a problem type and difficulty distribution consistent with actual contests. 2) A robust test case generation method and a corresponding local evaluation toolkit, enabling efficient and accurate local evaluation. 3) An effective test-time scaling evaluation metric, Refine@K, which allows iterative repair of solutions based on execution feedback. The results underscore the significant challenge in evaluating complex reasoning abilities: top-tier reasoning models like DeepSeek-R1 often rely on multi-turn code feedback to fully unlock their in-context reasoning potential when compared to non-reasoning counterparts. Furthermore, despite recent advancements in code generation, these models still lag behind top-performing human teams. We release the benchmark at: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs
- Abstract(参考訳): 複雑なコーディングや推論タスクにおける大きな推論モデルの大幅な進歩により、LiveCodeBenchやCodeEloのような既存のベンチマークは、実際の競合環境での大規模言語モデル(LLM)のコーディング能力を評価するには不十分である。
さらに、Pass@Kのような現在の評価指標は、推論モデルの反射能力を捉えることができない。
これらの課題に対処するために,LLM推論のフロンティアを探索するために設計された最上位の競合符号化ベンチマークである‘textbf{ICPC-Eval} を提案する。
ICPC-Evalには、世界中の各地域で開催されている11のICPCコンテストから、118の慎重にキュレートされた問題が含まれている。
1) 難解な現実的ICPC競争シナリオであり, 課題タイプと課題分布が実際の競技と一致している。
2)ロバストなテストケース生成方法及びそれに対応する局所評価ツールキットにより,効率的かつ正確な局所評価が可能となる。
3) 効率的なテスト時間スケーリング評価指標であるRefine@Kは,実行フィードバックに基づいたソリューションの反復的な修復を可能にする。
DeepSeek-R1のような最上位の推論モデルは、しばしばマルチターンのコードフィードバックに頼り、非推論のモデルと比較してコンテキスト内推論の可能性を完全にアンロックします。
さらに、コード生成の最近の進歩にもかかわらず、これらのモデルは、トップパフォーマンスの人間チームよりも遅れています。
https://github.com/RUCAIBox/Slow_Thinking_with_LLMs
関連論文リスト
- ProBench: Benchmarking Large Language Models in Competitive Programming [44.09445715541973]
競合プログラミングにおける大規模言語モデル(LLM)のベンチマークを行うためにProBenchを提案する。
ProBenchはCodeforces、Luogu、Nowcoderプラットフォームから包括的な競合プログラミング問題を収集している。
我々は,思考連鎖解析,誤り型診断,推論深度評価など,多次元の競合プログラミングにおける9つの最新のLCMを評価した。
論文 参考訳(メタデータ) (2025-02-28T09:12:42Z) - CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z) - Weak-eval-Strong: Evaluating and Eliciting Lateral Thinking of LLMs with Situation Puzzles [20.18736445118689]
SPLATは,Large Language Models (LLMs) の側方的思考を評価・引き起こすためのコンディションパズルを利用したベンチマークである。
このベンチマークは、3つの難易度で975グレードのシチュエーションパズルを含むもので、従来のモデルに基づく評価ではなく、新しいマルチターンプレーヤジャッジフレームワークを採用している。
実験により、WizardLM-2のような頑健な評価モデルが、中間質問回答と最終シナリオの精度の両方において、人間の判断と密接に一致していることが示されている。
論文 参考訳(メタデータ) (2024-10-09T10:09:11Z) - Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。
既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。
CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-02T11:26:02Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code [34.03774442237902]
コード関連アプリケーションに適用される大規模言語モデルは、顕著な分野として現れている。
既存の評価ベンチマーク(HumanEval、MBPPなど)は、もはやその能力を評価するには不十分である。
コードに対するLLMの包括的で汚染のない評価手法であるLiveCodeBenchを提案する。
論文 参考訳(メタデータ) (2024-03-12T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。