論文の概要: Idea First, Code Later: Disentangling Problem Solving from Code Generation in Evaluating LLMs for Competitive Programming
- arxiv url: http://arxiv.org/abs/2601.11332v1
- Date: Fri, 16 Jan 2026 14:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.523346
- Title: Idea First, Code Later: Disentangling Problem Solving from Code Generation in Evaluating LLMs for Competitive Programming
- Title(参考訳): アイデア第一, コード後: 競合プログラミングのためのLLMの評価において, コード生成から問題解決を遠ざける
- Authors: Sama Hadhoud, Alaa Elsetohy, Frederikus Hudi, Jan Christian Blaise Cruz, Steven Halim, Alham Fikri Aji,
- Abstract要約: 競争プログラミングは基本的に問題解決の課題であると主張する。
本稿では,ソリューション生成と評価の両面において,自然言語の編集を中心的に行うことを提案する。
- 参考スコア(独自算出の注目度): 15.736641361222125
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) increasingly succeed on competitive programming problems, yet existing evaluations conflate algorithmic reasoning with code-level implementation. We argue that competitive programming is fundamentally a problem-solving task and propose centering natural-language editorials in both solution generation and evaluation. Generating an editorial prior to code improves solve rates for some LLMs, with substantially larger gains when using expertly written gold editorials. However, even with gold editorials, models continue to struggle with implementation, while the gap between generated and gold editorials reveals a persistent problem-solving bottleneck in specifying correct and complete algorithms. Beyond pass/fail metrics, we diagnose reasoning errors by comparing model-generated editorials to gold standards using expert annotations and validate an LLM-as-a-judge protocol for scalable evaluation. We introduce a dataset of 83 ICPC-style problems with gold editorials and full test suites, and evaluate 19 LLMs, arguing that future benchmarks should explicitly separate problem solving from implementation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、競合するプログラミング問題にますます成功したが、既存の評価では、アルゴリズムによる推論とコードレベルの実装が一致している。
競争プログラミングは基本的に問題解決の課題であり、ソリューション生成と評価の両方において自然言語の編集を中心的に行うことを提案する。
コードに先立って編集を生成することで、一部のLCMの解決率が向上する。
しかし、ゴールドの編集でもモデルは実装に苦戦し続けており、生成された編集とゴールドの編集のギャップは、正しいアルゴリズムと完全なアルゴリズムを特定する際の永続的な問題解決のボトルネックを明らかにしている。
パス/フェイルメトリクス以外にも、モデル生成の編集を専門家のアノテーションを用いてゴールドスタンダードと比較することで、推論エラーを診断し、スケーラブルな評価のためのLCM-as-a-judgeプロトコルを検証する。
我々は、金の編集と全テストスイートによる83のICPCスタイルの問題のデータセットを導入し、19のLCMを評価し、将来のベンチマークは、実装から問題解決を明確に分離すべきであると主張した。
関連論文リスト
- AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions [37.21656149034477]
競合プログラミングは、LLM(Large Language Models)の推論とコーディング能力を評価するための重要なベンチマークとして登場した。
現在の評価は、LLMとエリートな人間プログラマの間にかなりのギャップを隠蔽する、状態モデル習熟度を超越している、と我々は主張する。
我々は、IOIやI CPCといった主要なプログラミングコンペティションから問題を引き出す新しいベンチマークであるAetherCodeを紹介する。
論文 参考訳(メタデータ) (2025-08-22T14:04:55Z) - Evaluating and Improving Large Language Models for Competitive Program Generation [18.564450345359468]
本研究では,大規模言語モデル(LLM)を現実の競合プログラミング問題の解法として評価・改善することを目的とする。
2024年に開催された9つの地域ICPC/CCPCコンテストから117の問題を収集し、4つのフィルタリング基準を設計し、80の問題をキュレートしたベンチマークを構築した。
我々は,オンライン審査員(OJ)プラットフォームを通じて,その競争プログラム生成能力を評価し,慎重に設計された基本的なプロンプトで指導する。
論文 参考訳(メタデータ) (2025-06-28T17:18:23Z) - LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? [88.29001498765629]
大規模言語モデル(LLM)は、競争力のあるプログラミングにおいてエリート人間より優れています。
我々はこの主張を再考し、LLMが人間の専門家とどのように異なるのか、そしてまだ限界が残っているのかを考察する。
私たちは、Codeforces、ICPC、IOIの問題からなるベンチマークであるLiveCodeBench Proを紹介します。
オリンピアードのメダリストのチームはアルゴリズムカテゴリーのあらゆる問題に注釈を付け、失敗したモデル生成の提出をライン・バイ・ラインで分析する。
論文 参考訳(メタデータ) (2025-06-13T16:29:09Z) - CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Distilling Algorithmic Reasoning from LLMs via Explaining Solution Programs [2.3020018305241337]
大きな言語モデルの推論能力を改善する効果的な方法として、明確な推論経路を蒸留する手法が登場している。
本稿では, LLM から推論能力を抽出する手法を提案する。
提案実験は,ReasonerがCoderによるプログラム実装をより効果的にガイドできることを示す。
論文 参考訳(メタデータ) (2024-04-11T22:19:50Z) - Fully Autonomous Programming with Large Language Models [0.9558392439655015]
LLM(Large Language Models)を用いたプログラム合成への最近のアプローチは、"ニアミスシンドローム"を示す。
我々は、LLMとプログラム合成ベンチマーク2としてOpenAI Codexを使用し、問題記述と評価のためのテストのデータベースとして使用します。
結果として生じるフレームワークは、修復フェーズなしでのCodexの従来の使用法と、従来の遺伝的プログラミングアプローチの両方を上回ります。
論文 参考訳(メタデータ) (2023-04-20T16:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。