Fugu-MT 論文翻訳(概要): Evaluating and Improving Large Language Models for Competitive Program Generation

論文の概要: Evaluating and Improving Large Language Models for Competitive Program Generation

arxiv url: http://arxiv.org/abs/2506.22954v1
Date: Sat, 28 Jun 2025 17:18:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.643536
Title: Evaluating and Improving Large Language Models for Competitive Program Generation
Title（参考訳）: 競合型プログラム生成のための大規模言語モデルの評価と改善
Authors: Minnan Wei, Ziming Li, Xiang Chen, Menglin Zheng, Ziyan Qu, Cheng Yu, Siyu Chen, Xiaolin Ju,
Abstract要約: 本研究では,大規模言語モデル(LLM)を現実の競合プログラミング問題の解法として評価・改善することを目的とする。 2024年に開催された9つの地域ICPC/CCPCコンテストから117の問題を収集し、4つのフィルタリング基準を設計し、80の問題をキュレートしたベンチマークを構築した。我々は,オンライン審査員(OJ)プラットフォームを通じて,その競争プログラム生成能力を評価し,慎重に設計された基本的なプロンプトで指導する。
参考スコア（独自算出の注目度）: 18.564450345359468
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Context: Due to the demand for strong algorithmic reasoning, complex logic implementation, and strict adherence to input/output formats and resource constraints, competitive programming generation by large language models (LLMs) is considered the most challenging problem in current LLM-based code generation. However, previous studies often evaluate LLMs using simple prompts and benchmark datasets prone to data leakage. Moreover, prior work has limited consideration of the diversity in algorithm types and difficulty levels. Objective: In this study, we aim to evaluate and improve LLMs in solving real-world competitive programming problems. Methods: We initially collect 117 problems from nine regional ICPC/CCPC contests held in 2024 and design four filtering criteria to construct a curated benchmark consisting of 80 problems. Leveraging DeepSeek-R1 as the LLM, we evaluate its competitive program generation capabilities through the online judge (OJ) platforms, guided by a carefully designed basic prompt. For incorrect submissions, we construct a fine-grained error taxonomy and then propose a targeted improvement framework by combining a multi-turn dialogue-based repair phase and an information-augmented regeneration phase. Results: Experimental results show that only 5 out of 80 problems are fully accepted when using basic prompts. For the unsolved problems, we construct the error taxonomy, including general errors (such as design, boundary, condition, data type, syntax, and input/output errors) and specialized errors (such as those in mathematical problems, greedy algorithms, and graph theories). After applying our proposed improvement strategies, we substantially increased the number of correct solutions, with 46 out of 80 problems successfully accepted.
Abstract（参考訳）: コンテキスト: 強力なアルゴリズム推論、複雑な論理の実装、入出力形式とリソース制約への厳密な固執が要求されているため、LLMベースのコード生成において、大規模言語モデル(LLM)による競合プログラミング生成は最も難しい問題と考えられている。しかし、従来の研究では、単純なプロンプトとベンチマークデータセットを用いてLCMを評価し、データ漏洩の傾向が見られた。さらに、先行研究はアルゴリズムの種類や難易度における多様性を限定的に考慮している。目的:本研究では,現実の競合プログラミング問題の解決において,LLMを評価し,改善することを目的としている。方法:2024年に開催された9つの地域ICPC/CCPCコンテストから117の問題を収集し,80の課題からなるキュレートされたベンチマークを構築するための4つのフィルタリング基準を設計した。 LLMとしてDeepSeek-R1を活用することで、慎重に設計された基本的なプロンプトによってガイドされたオンラインジャッジ(OJ)プラットフォームを通じて、競合するプログラム生成能力を評価する。提案手法は, 高精度な誤り分類法を構築し, マルチターン対話に基づく修復フェーズと情報付加再生フェーズを組み合わせることで, 目標とする改善フレームワークを提案する。結果: 基礎的プロンプトを用いた場合, 80件中5件のみが完全に受け入れられた。未解決問題に対しては、一般的なエラー(設計、境界、条件、データタイプ、構文、入出力エラーなど)や特殊なエラー(数学的問題、欲求アルゴリズム、グラフ理論など)を含むエラー分類を構築します。提案した改善戦略を適用した結果,80件中46件で解数を大幅に増加させた。

関連論文リスト

Surrogate Signals from Format and Length: Reinforcement Learning for Solving Mathematical Problems without Ground Truth Answers [24.934432751910443]
本研究は,代用信号として形式と長さを応用し,数学的問題解決のためにLLMを訓練するものである。本研究は,形式的正当性のみに着目した報奨関数が,初期の標準GRPOアルゴリズムに匹敵する性能向上をもたらすことを示す。その結果、フォーマット長のサロゲート信号を利用するGRPOアプローチは、マッチするだけでなく、標準のGRPOアルゴリズムの性能を上回る。
論文参考訳（メタデータ） (2025-05-26T02:56:22Z)
PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文参考訳（メタデータ） (2025-03-04T06:32:30Z)
How to Get Your LLM to Generate Challenging Problems for Evaluation [33.625052642068624]
CHASEは、大規模言語モデルを用いて、難しい問題を合成的に生成する統合フレームワークである。評価ベンチマークを作成するためにCHASEを実装している。これらのベンチマークにおける最先端のLCMの性能は、40-60%の精度の範囲にある。
論文参考訳（メタデータ） (2025-02-20T16:09:55Z)
CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。 CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文参考訳（メタデータ） (2025-01-02T13:49:00Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
PECC: Problem Extraction and Coding Challenges [3.287942619833188]
PECCは、Advent Of Code(AoC)の課題とProject Eulerから派生した、新しいベンチマークである。従来のベンチマークとは異なり、PECCは物語に埋め込まれた問題を解釈し、要求を抽出し、コードを生成するためにLCMを必要とする。結果は、ユーラー数に基づく部分集合において、物語的問題と中立的問題の間に様々なモデル性能を示す。
論文参考訳（メタデータ） (2024-04-29T15:02:14Z)
Can Language Models Solve Olympiad Programming? [40.54366634332231]
本稿ではUSACOベンチマークについて,USA Computing Olympiadの307の問題点について紹介する。競争型プログラミングのための様々なLM推論手法を初めて構築・テストする。 GPT-4 は 8.7% パス@1 の精度しか達成していない。
論文参考訳（メタデータ） (2024-04-16T23:27:38Z)
DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文参考訳（メタデータ） (2024-02-19T18:35:40Z)
Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文参考訳（メタデータ） (2023-12-04T18:58:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。