Fugu-MT 論文翻訳(概要): AutoCode: LLMs as Problem Setters for Competitive Programming

論文の概要: AutoCode: LLMs as Problem Setters for Competitive Programming

arxiv url: http://arxiv.org/abs/2510.12803v1
Date: Mon, 29 Sep 2025 17:59:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-20 05:23:07.159836
Title: AutoCode: LLMs as Problem Setters for Competitive Programming
Title（参考訳）: AutoCode: 競合プログラミングの課題セットとしてのLLM
Authors: Shang Zhou, Zihan Zheng, Kaiyuan Liu, Zeyu Shen, Zerui Cheng, Zexing Chen, Hansen He, Jianzhu Yao, Huanzhi Mao, Qiuyang Mang, Tianfu Fu, Beichen Li, Dongruixuan Li, Wenhao Chai, Zhuang Liu, Aleksandra Korolova, Peter Henderson, Natasha Jaques, Pramod Viswanath, Saining Xie, Jingbo Shang,
Abstract要約: 競合グレードの問題ステートメントやテストケースを生成するために,複数の検証ラウンドを使用するAutoCodeを紹介します。ホールドアウト問題では、AutoCodeテストスイートが99%の一貫性と公式判断にアプローチしている。
参考スコア（独自算出の注目度）: 94.71566758494787
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Writing competitive programming problems is exacting. Authors must: set constraints, input distributions, and edge cases that rule out shortcuts; target specific algorithms (e.g., max-flow, dynamic programming, data structures); and calibrate complexity beyond the reach of most competitors. We argue that this makes for an ideal test of general large language model capabilities and study whether they can do this reliably. We introduce AutoCode, which uses multiple rounds of validation to yield competition-grade problem statements and test cases. On held-out problems, AutoCode test suites approach 99% consistency with official judgments, a significant improvement over current state-of-the-art methods like HardTests, which achieve less than 81%. Furthermore, starting with a random seed problem, AutoCode can create novel variants with reference and brute-force solutions. By cross-verifying these generated solutions against test cases, we can further filter out malformed problems. Our system ensures high correctness, as verified by human experts. AutoCode successfully produces novel problems judged by Grandmaster-level (top 0.3%) competitive programmers to be of contest quality.
Abstract（参考訳）: 競合するプログラミング問題を書くことは正確です。著者は、ショートカットを除外する制約、入力分布、エッジケースを設定すること、特定のアルゴリズム(例えば、最大フロー、動的プログラミング、データ構造)をターゲットにすること、そして、ほとんどの競合のリーチを超えた複雑さをキャリブレーションすることである。これは、一般的な大言語モデルの能力の理想的なテストであり、それを確実に行うことができるかどうかを調査する上で有効である、と我々は主張する。競合グレードの問題ステートメントやテストケースを生成するために,複数の検証ラウンドを使用するAutoCodeを紹介します。ホールドアウト問題では、AutoCodeテストスイートが99%の一貫性と公式判断にアプローチしている。さらに、ランダムなシード問題から始めると、AutoCodeは参照とブルートフォースのソリューションを備えた新しい変種を生成することができる。これらの生成したソリューションをテストケースに対して相互検証することにより、不正な問題をさらに除去することができる。我々のシステムは、人間の専門家によって検証されているように、高い正確性を保証する。 AutoCodeは、グランドマスターレベル(トップ0.3%)の競争力のあるプログラマがコンテスト品質であると判断する新しい問題を生み出すことに成功した。

関連論文リスト

LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? [88.29001498765629]
大規模言語モデル(LLM)は、競争力のあるプログラミングにおいてエリート人間より優れています。我々はこの主張を再考し、LLMが人間の専門家とどのように異なるのか、そしてまだ限界が残っているのかを考察する。私たちは、Codeforces、ICPC、IOIの問題からなるベンチマークであるLiveCodeBench Proを紹介します。オリンピアードのメダリストのチームはアルゴリズムカテゴリーのあらゆる問題に注釈を付け、失敗したモデル生成の提出をライン・バイ・ラインで分析する。
論文参考訳（メタデータ） (2025-06-13T16:29:09Z)
CodeContests+: High-Quality Test Case Generation for Competitive Programming [14.602111331209203]
本稿では,競合プログラミング問題に対する高品質なテストケースを作成するエージェントシステムを提案する。我々は、このシステムをCodeContestsデータセットに適用し、CodeContests+というテストケースを改善した新しいバージョンを提案する。その結果、CodeContests+はCodeContestsよりもはるかに高い精度を実現し、特にTPR(True Positive Rate)が顕著であることがわかった。
論文参考訳（メタデータ） (2025-06-06T07:29:01Z)
CPRet: A Dataset, Benchmark, and Model for Retrieval in Competitive Programming [56.17331530444765]
CPRetは、競合プログラミングのための検索指向ベンチマークスイートである。 2つのコード中心タスク(Text-to-CodeとCode-to-Code)と、新たに提案された2つの問題中心タスク(Issue-to-DuplicateとSimplified-to-Full)である。私たちのコントリビューションには、高品質なトレーニングデータと、信頼性評価のための時間的に分離されたテストセットの両方が含まれています。
論文参考訳（メタデータ） (2025-05-19T10:07:51Z)
CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。 CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文参考訳（メタデータ） (2025-01-02T13:49:00Z)
B4: Towards Optimal Assessment of Plausible Code Solutions with Plausible Tests [16.19318541132026]
ベイズフレームワーク内では、解と試験の間の観測された通過状態の後続確率に基づいて最適な選択戦略が定義されることを示す。本稿では,この最適(計算不可能な)戦略を近似するための効率的な手法を提案する。
論文参考訳（メタデータ） (2024-09-13T10:22:08Z)
AutoTest: Evolutionary Code Solution Selection with Test Cases [1.4582633500696451]
本研究では,自動テストケース生成とコードソリューション実行を組み合わせた新しい手法であるAutoTestを提案する。 HumanEvalデータセットは164のプログラミング問題で構成されており、AutoTestはpass@1スコアでベースラインメソッドよりも約10%改善されている。
論文参考訳（メタデータ） (2024-08-22T04:38:41Z)
Competition-Level Code Generation with AlphaCode [74.87216298566942]
より深い推論を必要とする問題に対する新しいソリューションを作成することができるコード生成システムであるAlphaCodeを紹介する。 Codeforcesプラットフォームにおける最近のプログラミングコンペティションのシミュレーション評価において、AlphaCodeは平均54.3%のランキングを達成した。
論文参考訳（メタデータ） (2022-02-08T23:16:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。