論文の概要: ProBench: Benchmarking Large Language Models in Competitive Programming
- arxiv url: http://arxiv.org/abs/2502.20868v1
- Date: Fri, 28 Feb 2025 09:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:32.524685
- Title: ProBench: Benchmarking Large Language Models in Competitive Programming
- Title(参考訳): ProBench: 競合プログラミングにおける大規模言語モデルのベンチマーク
- Authors: Lei Yang, Renren Jin, Ling Shi, Jianxiang Peng, Yue Chen, Deyi Xiong,
- Abstract要約: 競合プログラミングにおける大規模言語モデル(LLM)のベンチマークを行うためにProBenchを提案する。
ProBenchはCodeforces、Luogu、Nowcoderプラットフォームから包括的な競合プログラミング問題を収集している。
我々は,思考連鎖解析,誤り型診断,推論深度評価など,多次元の競合プログラミングにおける9つの最新のLCMを評価した。
- 参考スコア(独自算出の注目度): 44.09445715541973
- License:
- Abstract: With reasoning language models such as OpenAI-o3 and DeepSeek-R1 emerging, large language models (LLMs) have entered a new phase of development. However, existing benchmarks for coding evaluation are gradually inadequate to assess the capability of advanced LLMs in code reasoning. To bridge the gap for high-level code reasoning assessment, we propose ProBench to benchmark LLMs in competitive programming, drawing inspiration from the International Collegiate Programming Contest. ProBench collects a comprehensive set of competitive programming problems from Codeforces, Luogu, and Nowcoder platforms during the period from July to December 2024, obtaining real test results through online submissions to ensure the fairness and accuracy of the evaluation. We establish a unified problem attribute system, including difficulty grading and algorithm tagging. With carefully collected and annotated data in ProBench, we systematically assess 9 latest LLMs in competitive programming across multiple dimensions, including thought chain analysis, error type diagnosis, and reasoning depth evaluation. Experimental results show that QwQ-32B-Preview achieves the best score of 20.93 followed by DeepSeek-V3 with a score of 16.38, suggesting that models trained with specialized reasoning tasks significantly outperform general-purpose models (even larger than reasoning-oriented models) in programming. Further analysis also reveals key areas for programming capability enhancement, e.g., algorithm adaptability and reasoning sufficiency, providing important insights for the future development of reasoning models.
- Abstract(参考訳): OpenAI-o3やDeepSeek-R1のような推論言語モデルによって、大きな言語モデル(LLM)が新たな開発段階に入った。
しかし、コーディング評価のための既存のベンチマークは、コード推論における高度なLCMの能力を評価するために徐々に不十分になっている。
高レベルのコード推論評価のギャップを埋めるため、競争プログラミングにおけるLLMのベンチマークを行うProBenchを提案し、International Collegiate Programming Contestからインスピレーションを得た。
ProBenchは、2024年7月から12月までの期間にCodeforces、Luogu、Nowcoderプラットフォームから包括的な競合プログラミング問題を収集し、オンラインの提出を通じて実際のテスト結果を取得し、評価の公平性と正確性を保証する。
我々は難解なグレーティングやアルゴリズムタグ付けを含む統一された問題属性システムを構築した。
ProBenchの注意深い収集および注釈付きデータを用いて、思考連鎖解析、エラー型診断、推論深度評価を含む、複数の次元にわたる競合プログラミングにおける9つの最新のLCMを体系的に評価する。
実験結果から,QwQ-32B-Previewが20.93点,DeepSeek-V3が16.38点,特殊推論タスクで訓練されたモデルがプログラミングにおける汎用モデル(推論指向モデルよりも大きい)を大幅に上回ったことが示唆された。
さらなる分析により、プログラミング能力の向上、例えば、アルゴリズム適応性、推論十分性といった重要な領域が明らかになり、推論モデルの将来的な発展に重要な洞察を与えてくれる。
関連論文リスト
- MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation [17.432401371613903]
本稿では,コード正確性評価のための資源効率の高いシステム2思考フレームワークを提案する。
MCTS-Judgeはモンテカルロ木探索を用いて問題を単純かつ多視点的な評価に分解する。
高精度で単体テストレベルの報酬メカニズムは、大規模言語モデルにライン・バイ・ライン分析の実行を促す。
論文 参考訳(メタデータ) (2025-02-18T02:55:48Z) - EquiBench: Benchmarking Code Reasoning Capabilities of Large Language Models via Equivalence Checking [54.354203142828084]
本稿では,大規模言語モデルのコード推論能力を評価する新しい手法として等価チェックの課題を提案する。
EquiBenchは、4つのプログラミング言語と6つの等価カテゴリにまたがる2400のプログラムペアのデータセットである。
その結果,OpenAI o3-miniの精度は78.0%と高いことがわかった。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code [34.03774442237902]
コード関連アプリケーションに適用される大規模言語モデルは、顕著な分野として現れている。
既存の評価ベンチマーク(HumanEval、MBPPなど)は、もはやその能力を評価するには不十分である。
コードに対するLLMの包括的で汚染のない評価手法であるLiveCodeBenchを提案する。
論文 参考訳(メタデータ) (2024-03-12T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。