Fugu-MT 論文翻訳(概要): CodeContests+: High-Quality Test Case Generation for Competitive Programming

論文の概要: CodeContests+: High-Quality Test Case Generation for Competitive Programming

arxiv url: http://arxiv.org/abs/2506.05817v1
Date: Fri, 06 Jun 2025 07:29:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:43.360496
Title: CodeContests+: High-Quality Test Case Generation for Competitive Programming
Title（参考訳）: CodeContests+: 競合プログラミングのための高品質なテストケース生成
Authors: Zihan Wang, Siyao Liu, Yang Sun, Hongyan Li, Kai Shen,
Abstract要約: 本稿では,競合プログラミング問題に対する高品質なテストケースを作成するエージェントシステムを提案する。我々は、このシステムをCodeContestsデータセットに適用し、CodeContests+というテストケースを改善した新しいバージョンを提案する。その結果、CodeContests+はCodeContestsよりもはるかに高い精度を実現し、特にTPR(True Positive Rate)が顕著であることがわかった。
参考スコア（独自算出の注目度）: 14.602111331209203
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Competitive programming, due to its high reasoning difficulty and precise correctness feedback, has become a key task for both training and evaluating the reasoning capabilities of large language models (LLMs). However, while a large amount of public problem data, such as problem statements and solutions, is available, the test cases of these problems are often difficult to obtain. Therefore, test case generation is a necessary task for building large-scale datasets, and the quality of the test cases directly determines the accuracy of the evaluation. In this paper, we introduce an LLM-based agent system that creates high-quality test cases for competitive programming problems. We apply this system to the CodeContests dataset and propose a new version with improved test cases, named CodeContests+. We evaluated the quality of test cases in CodeContestsPlus. First, we used 1.72 million submissions with pass/fail labels to examine the accuracy of these test cases in evaluation. The results indicated that CodeContests+ achieves significantly higher accuracy than CodeContests, particularly with a notably higher True Positive Rate (TPR). Subsequently, our experiments in LLM Reinforcement Learning (RL) further confirmed that improvements in test case quality yield considerable advantages for RL.
Abstract（参考訳）: 競合プログラミングは、高い推論困難と正確な正確性フィードバックのため、大規模言語モデル(LLM)の推論能力のトレーニングと評価において重要なタスクとなっている。しかし,問題文や解法など多くの公的な問題データが利用可能であるが,これらの問題のテストケースは入手が困難であることが多い。そのため、大規模データセット構築にはテストケース生成が不可欠であり、テストケースの品質が評価の正確性を直接決定する。本稿では,競合プログラミング問題に対する高品質なテストケースを生成するLLMベースのエージェントシステムを提案する。我々は、このシステムをCodeContestsデータセットに適用し、CodeContests+というテストケースを改善した新しいバージョンを提案する。 CodeContestsPlusにおけるテストケースの品質を評価した。まず,パス/フェイルラベルを用いた170万件の提出データを用いて,これらのテストケースの精度について検討した。その結果、CodeContests+はCodeContestsよりもはるかに精度が高く、特にTrue Positive Rate(TPR)が顕著に高いことがわかった。その後,LLM強化学習(RL)における実験により,テストケースの品質向上がRLに有意な優位性をもたらすことを確認した。

関連論文リスト

Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文参考訳（メタデータ） (2026-02-04T06:30:40Z)
CodeContests-O: Powering LLMs via Feedback-Driven Iterative Test Case Generation [71.42965967582147]
既存のアプローチは、Large Language Models (LLM) を用いたテストケースの合成を試みる包括的なテストケース構築のために、textbfFeedback-Bench Iterative Framework$を提案します。私たちのデータセットは、平均的真正率(TPR)が89.37%、真負率(TNR)が90.89%で、CodeContestsとCodeContests+をそれぞれ4.32%、9.37%で大幅に上回っている。
論文参考訳（メタデータ） (2026-01-20T07:32:44Z)
AutoCode: LLMs as Problem Setters for Competitive Programming [94.71566758494787]
競合グレードの問題ステートメントやテストケースを生成するために,複数の検証ラウンドを使用するAutoCodeを紹介します。ホールドアウト問題では、AutoCodeテストスイートが99%の一貫性と公式判断にアプローチしている。
論文参考訳（メタデータ） (2025-09-29T17:59:03Z)
Klear-CodeTest: Scalable Test Case Generation for Code Reinforcement Learning [43.30900834053253]
Klear-CodeTestは、厳密な検証機能を備えた総合的なテストケース合成フレームワークで、テストケースの品質と信頼性を保証する。提案したG-Vフレームワークは,正規ケースとコーナーケースの両方を含む総合的なテストケースを生成し,テストカバレッジと解の正当性評価のための識別力を向上させる。さらに,オンライン検証プラットフォームに最適化された多層セキュリティサンドボックスシステムを設計し,安全で信頼性の高いコード実行を保証する。
論文参考訳（メタデータ） (2025-08-07T07:36:01Z)
Rethinking Verification for LLM Code Generation: From Generation to Testing [44.46778801679273]
大規模言語モデル(LLM)は最近、HumanEvalやLiveCodeBenchといったコード生成ベンチマークで顕著な成功を収めた。本稿では,テストスーツの厳密な定量化を目的とした新しい多次元メトリクスを提案する。実験の結果、SAGAは90.62%、検証器の精度はTCGBenchで32.58%に達することがわかった。
論文参考訳（メタデータ） (2025-07-09T14:58:47Z)
CPRet: A Dataset, Benchmark, and Model for Retrieval in Competitive Programming [56.17331530444765]
CPRetは、競合プログラミングのための検索指向ベンチマークスイートである。 2つのコード中心タスク(Text-to-CodeとCode-to-Code)と、新たに提案された2つの問題中心タスク(Issue-to-DuplicateとSimplified-to-Full)である。私たちのコントリビューションには、高品質なトレーニングデータと、信頼性評価のための時間的に分離されたテストセットの両方が含まれています。
論文参考訳（メタデータ） (2025-05-19T10:07:51Z)
Automatic High-Level Test Case Generation using Large Language Models [1.8136446064778242]
主な課題は、テストスクリプトを書くのではなく、テスト作業とビジネス要件の整合性です。我々は、高レベルのテストケースを生成するためのトレーニング/ファインチューンモデルを構築するユースケースデータセットを構築した。当社の積極的なアプローチは要件テストのアライメントを強化し,早期テストケース生成を容易にする。
論文参考訳（メタデータ） (2025-03-23T09:14:41Z)
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文参考訳（メタデータ） (2025-03-04T19:17:36Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
System Test Case Design from Requirements Specifications: Insights and Challenges of Using ChatGPT [1.9282110216621835]
本稿では,Large Language Models (LLMs) を用いてソフトウェア要件仕様 (SRS) 文書からテストケース設計を作成することの有効性について検討する。生成したテストケースの約87%が有効で、残りの13%は適用不可能か冗長かのどちらかでした。
論文参考訳（メタデータ） (2024-12-04T20:12:27Z)
Leveraging Large Language Models for Efficient Failure Analysis in Game Development [47.618236610219554]
本稿では,テストの失敗の原因となるコードの変更を自動的に識別する手法を提案する。このメソッドは、LLM(Large Language Models)を利用して、エラーメッセージと対応するコード変更を関連付ける。当社のアプローチは新たに作成したデータセットで71%の精度に達しています。
論文参考訳（メタデータ） (2024-06-11T09:21:50Z)
Large Language Models as Test Case Generators: Performance Evaluation and Enhancement [3.5398126682962587]
大規模言語モデルが高品質なテストケースをいかに生み出すかを検討する。本稿では,テストインプットとテストアウトプットの生成を分離するemphTestChainというマルチエージェントフレームワークを提案する。以上の結果から,TestChainはベースラインのマージンを大きく上回っていることが示唆された。
論文参考訳（メタデータ） (2024-04-20T10:27:01Z)
Automated Test Case Repair Using Language Models [0.5708902722746041]
欠陥のないテストケースは、テストスイートの品質を低下させ、ソフトウェア開発プロセスを破壊します。テストケースの自動修復に事前訓練されたコード言語モデルを活用する新しいアプローチであるTaRGETを提案する。 TaRGETは、テスト修復を言語翻訳タスクとして扱い、言語モデルを微調整するために2段階のプロセスを使用する。
論文参考訳（メタデータ） (2024-01-12T18:56:57Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。