Fugu-MT 論文翻訳(概要): ICPC-Eval: Probing the Frontiers of LLM Reasoning with Competitive Programming Contests

論文の概要: ICPC-Eval: Probing the Frontiers of LLM Reasoning with Competitive Programming Contests

arxiv url: http://arxiv.org/abs/2506.04894v1
Date: Thu, 05 Jun 2025 11:20:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.676172
Title: ICPC-Eval: Probing the Frontiers of LLM Reasoning with Competitive Programming Contests
Title（参考訳）: ICPC-Eval: LLM推論と競合プログラミングのコンテストのフロンティアを探る
Authors: Shiyi Xu, Yiwen Hu, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Ji-Rong Wen,
Abstract要約: 推論のフロンティアを探索するために設計されたトップレベルの競合コーディングベンチマークである textbfICPC-Eval を提案する。 ICPC-Evalは、世界中の各地域で開催されている11のICPCコンテストから、118の慎重にキュレートされた問題を含んでいる。結果は、複雑な推論能力を評価する上で重要な課題を浮き彫りにした。
参考スコア（独自算出の注目度）: 85.72404266850982
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: With the significant progress of large reasoning models in complex coding and reasoning tasks, existing benchmarks, like LiveCodeBench and CodeElo, are insufficient to evaluate the coding capabilities of large language models (LLMs) in real competition environments. Moreover, current evaluation metrics such as Pass@K fail to capture the reflective abilities of reasoning models. To address these challenges, we propose \textbf{ICPC-Eval}, a top-level competitive coding benchmark designed to probing the frontiers of LLM reasoning. ICPC-Eval includes 118 carefully curated problems from 11 recent ICPC contests held in various regions of the world, offering three key contributions: 1) A challenging realistic ICPC competition scenario, featuring a problem type and difficulty distribution consistent with actual contests. 2) A robust test case generation method and a corresponding local evaluation toolkit, enabling efficient and accurate local evaluation. 3) An effective test-time scaling evaluation metric, Refine@K, which allows iterative repair of solutions based on execution feedback. The results underscore the significant challenge in evaluating complex reasoning abilities: top-tier reasoning models like DeepSeek-R1 often rely on multi-turn code feedback to fully unlock their in-context reasoning potential when compared to non-reasoning counterparts. Furthermore, despite recent advancements in code generation, these models still lag behind top-performing human teams. We release the benchmark at: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs
Abstract（参考訳）: 複雑なコーディングや推論タスクにおける大きな推論モデルの大幅な進歩により、LiveCodeBenchやCodeEloのような既存のベンチマークは、実際の競合環境での大規模言語モデル(LLM)のコーディング能力を評価するには不十分である。さらに、Pass@Kのような現在の評価指標は、推論モデルの反射能力を捉えることができない。これらの課題に対処するために,LLM推論のフロンティアを探索するために設計された最上位の競合符号化ベンチマークである‘textbf{ICPC-Eval} を提案する。 ICPC-Evalには、世界中の各地域で開催されている11のICPCコンテストから、118の慎重にキュレートされた問題が含まれている。 1) 難解な現実的ICPC競争シナリオであり, 課題タイプと課題分布が実際の競技と一致している。 2)ロバストなテストケース生成方法及びそれに対応する局所評価ツールキットにより,効率的かつ正確な局所評価が可能となる。 3) 効率的なテスト時間スケーリング評価指標であるRefine@Kは,実行フィードバックに基づいたソリューションの反復的な修復を可能にする。 DeepSeek-R1のような最上位の推論モデルは、しばしばマルチターンのコードフィードバックに頼り、非推論のモデルと比較してコンテキスト内推論の可能性を完全にアンロックします。さらに、コード生成の最近の進歩にもかかわらず、これらのモデルは、トップパフォーマンスの人間チームよりも遅れています。 https://github.com/RUCAIBox/Slow_Thinking_with_LLMs

関連論文リスト

Pretraining on the Test Set Is No Longer All You Need: A Debate-Driven Approach to QA Benchmarks [2.3188831772813105]
本稿では、既存のQAデータセットを構造化された敵対的議論に変換する議論駆動評価パラダイムを提案する。我々は,(1)QAタスクを議論に基づく評価に体系的に変換する評価パイプライン,(2)MMLU-Pro質問のサブセットにおけるパラダイムの有効性を示す公開ベンチマークの2つの主要な貢献を行う。
論文参考訳（メタデータ） (2025-07-23T17:58:14Z)
OJBench: A Competition Level Code Benchmark For Large Language Models [23.061564017225734]
OJBenchは、大規模言語モデル(LLM)の競合レベルのコード推論能力を評価するために設計された、新しくて挑戦的なベンチマークである。我々は,オープンソースモデルとオープンソースモデルの両方,推論指向モデルと非推論指向モデルを含む37モデルに対して,OJBenchを用いた包括的評価を行う。以上の結果から,o4-miniやGemini-2.5-pro-expといった最先端の推論指向モデルでさえ,競争レベルの問題に悩まされていることが示唆された。
論文参考訳（メタデータ） (2025-06-19T15:27:02Z)
LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? [88.29001498765629]
大規模言語モデル(LLM)は、競争力のあるプログラミングにおいてエリート人間より優れています。我々はこの主張を再考し、LLMが人間の専門家とどのように異なるのか、そしてまだ限界が残っているのかを考察する。私たちは、Codeforces、ICPC、IOIの問題からなるベンチマークであるLiveCodeBench Proを紹介します。オリンピアードのメダリストのチームはアルゴリズムカテゴリーのあらゆる問題に注釈を付け、失敗したモデル生成の提出をライン・バイ・ラインで分析する。
論文参考訳（メタデータ） (2025-06-13T16:29:09Z)
ProBench: Benchmarking Large Language Models in Competitive Programming [44.09445715541973]
競合プログラミングにおける大規模言語モデル(LLM)のベンチマークを行うためにProBenchを提案する。 ProBenchはCodeforces、Luogu、Nowcoderプラットフォームから包括的な競合プログラミング問題を収集している。我々は,思考連鎖解析,誤り型診断,推論深度評価など,多次元の競合プログラミングにおける9つの最新のLCMを評価した。
論文参考訳（メタデータ） (2025-02-28T09:12:42Z)
CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。 CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文参考訳（メタデータ） (2025-01-02T13:49:00Z)
Weak-eval-Strong: Evaluating and Eliciting Lateral Thinking of LLMs with Situation Puzzles [20.18736445118689]
SPLATは,Large Language Models (LLMs) の側方的思考を評価・引き起こすためのコンディションパズルを利用したベンチマークである。このベンチマークは、3つの難易度で975グレードのシチュエーションパズルを含むもので、従来のモデルに基づく評価ではなく、新しいマルチターンプレーヤジャッジフレームワークを採用している。実験により、WizardLM-2のような頑健な評価モデルが、中間質問回答と最終シナリオの精度の両方において、人間の判断と密接に一致していることが示されている。
論文参考訳（メタデータ） (2024-10-09T10:09:11Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
Can We Further Elicit Reasoning in LLMs? Critic-Guided Planning with Retrieval-Augmentation for Solving Challenging Tasks [68.49251303172674]
最先端の大規模言語モデル(LLM)は、目覚ましい問題解決能力を示すが、複雑な推論と事実の正しさに苦慮する可能性がある。既存の手法では、チェーン・オブ・ソートと検索強化生成(RAG)の強みを利用して、複雑な問題をより単純なステップに分解し、検索を適用して事実の正しさを向上させる。 CR-Planner(CR-Planner, CR-Planner, CR-Planner)は, 微調整された批判モデルを利用して, 推論と検索の両方のプロセスを計画を通してガイドする新しいフレームワークである。
論文参考訳（メタデータ） (2024-10-02T11:26:02Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code [34.03774442237902]
コード関連アプリケーションに適用される大規模言語モデルは、顕著な分野として現れている。既存の評価ベンチマーク(HumanEval、MBPPなど)は、もはやその能力を評価するには不十分である。コードに対するLLMの包括的で汚染のない評価手法であるLiveCodeBenchを提案する。
論文参考訳（メタデータ） (2024-03-12T17:58:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。