Fugu-MT 論文翻訳(概要): HardTests: Synthesizing High-Quality Test Cases for LLM Coding

論文の概要: HardTests: Synthesizing High-Quality Test Cases for LLM Coding

arxiv url: http://arxiv.org/abs/2505.24098v1
Date: Fri, 30 May 2025 01:00:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.715616
Title: HardTests: Synthesizing High-Quality Test Cases for LLM Coding
Title（参考訳）: HardTests: LLMコーディングのための高品質テストケースの合成
Authors: Zhongmou He, Yee Man Choi, Kexun Zhang, Jiabao Ji, Junting Zhou, Dejia Xu, Ivan Bercovich, Aidan Zhang, Lei Li,
Abstract要約: 検証は、強化学習のような後学習技術が必要とする大言語モデル(LLM)推論において重要な役割を果たす。 LLMを用いた高品質なテスト合成のためのパイプラインであるHARDTESTGENを提案する。
参考スコア（独自算出の注目度）: 14.561428626993326
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Verifiers play a crucial role in large language model (LLM) reasoning, needed by post-training techniques such as reinforcement learning. However, reliable verifiers are hard to get for difficult coding problems, because a well-disguised wrong solution may only be detected by carefully human-written edge cases that are difficult to synthesize. To address this issue, we propose HARDTESTGEN, a pipeline for high-quality test synthesis using LLMs. With this pipeline, we curate a comprehensive competitive programming dataset HARDTESTS with 47k problems and synthetic high-quality tests. Compared with existing tests, HARDTESTGEN tests demonstrate precision that is 11.3 percentage points higher and recall that is 17.5 percentage points higher when evaluating LLM-generated code. For harder problems, the improvement in precision can be as large as 40 points. HARDTESTS also proves to be more effective for model training, measured by downstream code generation performance. We will open-source our dataset and synthesis pipeline at https://leililab.github.io/HardTests/.
Abstract（参考訳）: 検証は、強化学習のような後学習技術が必要とする大言語モデル(LLM)推論において重要な役割を果たす。しかし、信頼度の高い検証器は、難解なコーディング問題を解くのが困難である。なぜなら、よく分類された間違った解は、合成が困難である慎重に書かれたエッジケースによってのみ検出されるからである。この問題に対処するために,LLMを用いた高品質なテスト合成のためのパイプラインであるHARDTESTGENを提案する。このパイプラインでは、47k問題と合成高品質なテストにより、総合的な競合プログラミングデータセットであるHARDTESTSをキュレートする。既存のテストと比較すると、HARDTESTGENテストは11.3パーセントの精度を示し、LCM生成コードの評価では17.5パーセントの精度でリコールする。難しい問題では、精度の向上は最大40ポイントに達する。 HARDTESTSはまた、下流のコード生成のパフォーマンスによって測定されるモデルトレーニングに対して、より効果的であることが証明されている。私たちはデータセットと合成パイプラインをhttps://leililab.github.io/HardTests/でオープンソース化します。

関連論文リスト

CodeContests+: High-Quality Test Case Generation for Competitive Programming [14.602111331209203]
本稿では,競合プログラミング問題に対する高品質なテストケースを作成するエージェントシステムを提案する。我々は、このシステムをCodeContestsデータセットに適用し、CodeContests+というテストケースを改善した新しいバージョンを提案する。その結果、CodeContests+はCodeContestsよりもはるかに高い精度を実現し、特にTPR(True Positive Rate)が顕著であることがわかった。
論文参考訳（メタデータ） (2025-06-06T07:29:01Z)
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文参考訳（メタデータ） (2025-03-04T19:17:36Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
CoT-based Synthesizer: Enhancing LLM Performance through Answer Synthesis [31.953858122298517]
本稿では,CoTをベースとした新しい推論スケーリング戦略であるSynthesizerを提案する。複数の候補応答から相補的な情報を解析することにより、優れた回答を合成する。その結果,Llama3-8Bは11.8%,GPT-4oは10.3%向上した。
論文参考訳（メタデータ） (2025-01-03T06:50:06Z)
Measuring the Influence of Incorrect Code on Test Generation [22.168699378889148]
間違ったコードエクスペリエンスのために生成されたテストは、バグ検出率を47%上回っている。 +18%の精度、+4%のカバレッジ、+34%のバグ検出の改善は、自然言語によるコード記述を提供することで達成できる。
論文参考訳（メタデータ） (2024-09-14T15:17:34Z)
Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。 4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文参考訳（メタデータ） (2024-09-03T11:09:44Z)
Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.517293765116307]
ユニットテストはソフトウェアの信頼性に不可欠だが、手動のテスト作成には時間がかかり、しばしば無視される。本研究は,LLM生成単体テストの大規模評価をクラスレベルで行った最初の大規模評価である。
論文参考訳（メタデータ） (2024-06-28T20:38:41Z)
Large Language Models as Test Case Generators: Performance Evaluation and Enhancement [3.5398126682962587]
大規模言語モデルが高品質なテストケースをいかに生み出すかを検討する。本稿では,テストインプットとテストアウトプットの生成を分離するemphTestChainというマルチエージェントフレームワークを提案する。以上の結果から,TestChainはベースラインのマージンを大きく上回っていることが示唆された。
論文参考訳（メタデータ） (2024-04-20T10:27:01Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。