Fugu-MT 論文翻訳(概要): ProBench: Benchmarking Large Language Models in Competitive Programming

論文の概要: ProBench: Benchmarking Large Language Models in Competitive Programming

arxiv url: http://arxiv.org/abs/2502.20868v1
Date: Fri, 28 Feb 2025 09:12:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:45.76882
Title: ProBench: Benchmarking Large Language Models in Competitive Programming
Title（参考訳）: ProBench: 競合プログラミングにおける大規模言語モデルのベンチマーク
Authors: Lei Yang, Renren Jin, Ling Shi, Jianxiang Peng, Yue Chen, Deyi Xiong,
Abstract要約: 競合プログラミングにおける大規模言語モデル(LLM)のベンチマークを行うためにProBenchを提案する。 ProBenchはCodeforces、Luogu、Nowcoderプラットフォームから包括的な競合プログラミング問題を収集している。我々は,思考連鎖解析,誤り型診断,推論深度評価など,多次元の競合プログラミングにおける9つの最新のLCMを評価した。
参考スコア（独自算出の注目度）: 44.09445715541973
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With reasoning language models such as OpenAI-o3 and DeepSeek-R1 emerging, large language models (LLMs) have entered a new phase of development. However, existing benchmarks for coding evaluation are gradually inadequate to assess the capability of advanced LLMs in code reasoning. To bridge the gap for high-level code reasoning assessment, we propose ProBench to benchmark LLMs in competitive programming, drawing inspiration from the International Collegiate Programming Contest. ProBench collects a comprehensive set of competitive programming problems from Codeforces, Luogu, and Nowcoder platforms during the period from July to December 2024, obtaining real test results through online submissions to ensure the fairness and accuracy of the evaluation. We establish a unified problem attribute system, including difficulty grading and algorithm tagging. With carefully collected and annotated data in ProBench, we systematically assess 9 latest LLMs in competitive programming across multiple dimensions, including thought chain analysis, error type diagnosis, and reasoning depth evaluation. Experimental results show that QwQ-32B-Preview achieves the best score of 20.93 followed by DeepSeek-V3 with a score of 16.38, suggesting that models trained with specialized reasoning tasks significantly outperform general-purpose models (even larger than reasoning-oriented models) in programming. Further analysis also reveals key areas for programming capability enhancement, e.g., algorithm adaptability and reasoning sufficiency, providing important insights for the future development of reasoning models.
Abstract（参考訳）: OpenAI-o3やDeepSeek-R1のような推論言語モデルによって、大きな言語モデル(LLM)が新たな開発段階に入った。しかし、コーディング評価のための既存のベンチマークは、コード推論における高度なLCMの能力を評価するために徐々に不十分になっている。高レベルのコード推論評価のギャップを埋めるため、競争プログラミングにおけるLLMのベンチマークを行うProBenchを提案し、International Collegiate Programming Contestからインスピレーションを得た。 ProBenchは、2024年7月から12月までの期間にCodeforces、Luogu、Nowcoderプラットフォームから包括的な競合プログラミング問題を収集し、オンラインの提出を通じて実際のテスト結果を取得し、評価の公平性と正確性を保証する。我々は難解なグレーティングやアルゴリズムタグ付けを含む統一された問題属性システムを構築した。 ProBenchの注意深い収集および注釈付きデータを用いて、思考連鎖解析、エラー型診断、推論深度評価を含む、複数の次元にわたる競合プログラミングにおける9つの最新のLCMを体系的に評価する。実験結果から,QwQ-32B-Previewが20.93点,DeepSeek-V3が16.38点,特殊推論タスクで訓練されたモデルがプログラミングにおける汎用モデル(推論指向モデルよりも大きい)を大幅に上回ったことが示唆された。さらなる分析により、プログラミング能力の向上、例えば、アルゴリズム適応性、推論十分性といった重要な領域が明らかになり、推論モデルの将来的な発展に重要な洞察を与えてくれる。

関連論文リスト

Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
OJBench: A Competition Level Code Benchmark For Large Language Models [23.061564017225734]
OJBenchは、大規模言語モデル(LLM)の競合レベルのコード推論能力を評価するために設計された、新しくて挑戦的なベンチマークである。我々は,オープンソースモデルとオープンソースモデルの両方,推論指向モデルと非推論指向モデルを含む37モデルに対して,OJBenchを用いた包括的評価を行う。以上の結果から,o4-miniやGemini-2.5-pro-expといった最先端の推論指向モデルでさえ,競争レベルの問題に悩まされていることが示唆された。
論文参考訳（メタデータ） (2025-06-19T15:27:02Z)
ICPC-Eval: Probing the Frontiers of LLM Reasoning with Competitive Programming Contests [85.72404266850982]
推論のフロンティアを探索するために設計されたトップレベルの競合コーディングベンチマークである textbfICPC-Eval を提案する。 ICPC-Evalは、世界中の各地域で開催されている11のICPCコンテストから、118の慎重にキュレートされた問題を含んでいる。結果は、複雑な推論能力を評価する上で重要な課題を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-05T11:20:37Z)
CHORUS: Zero-shot Hierarchical Retrieval and Orchestration for Generating Linear Programming Code [0.0]
本研究では,Large Language Models (LLMs) のLinear Programming (LP) コード生成における効率性について検討する。自然言語問題文からGurobiベースのLPコードを合成する検索拡張生成フレームワークCHORUSを提案する。 NL4-Codeベンチマークの実験では、CHORUSはベースラインや従来のRAGに比べて大きなマージンでオープンソースのLLMの性能を改善している。
論文参考訳（メタデータ） (2025-05-02T16:36:57Z)
AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models [86.83875864328984]
本稿では,オープンエンド論理パズルを自動合成する手法を提案し,それをバイリンガルベンチマークであるAutoLogiの開発に利用する。提案手法は,プログラムベースの検証と制御可能な難易度を特徴とし,モデルの推論能力をよりよく区別する信頼性の高い評価を可能にする。
論文参考訳（メタデータ） (2025-02-24T07:02:31Z)
MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation [17.432401371613903]
本稿では,コード正確性評価のための資源効率の高いシステム2思考フレームワークを提案する。 MCTS-Judgeはモンテカルロ木探索を用いて問題を単純かつ多視点的な評価に分解する。高精度で単体テストレベルの報酬メカニズムは、大規模言語モデルにライン・バイ・ライン分析の実行を促す。
論文参考訳（メタデータ） (2025-02-18T02:55:48Z)
Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-10T15:31:54Z)
CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。 CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文参考訳（メタデータ） (2025-01-02T13:49:00Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。 ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。コード推論は、コードLLMの最も重要な能力の1つである。本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文参考訳（メタデータ） (2024-03-25T05:37:16Z)
LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code [34.03774442237902]
コード関連アプリケーションに適用される大規模言語モデルは、顕著な分野として現れている。既存の評価ベンチマーク(HumanEval、MBPPなど)は、もはやその能力を評価するには不十分である。コードに対するLLMの包括的で汚染のない評価手法であるLiveCodeBenchを提案する。
論文参考訳（メタデータ） (2024-03-12T17:58:04Z)
Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。 i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文参考訳（メタデータ） (2024-01-17T18:13:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。