論文の概要: Klear-CodeTest: Scalable Test Case Generation for Code Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.05710v1
- Date: Thu, 07 Aug 2025 07:36:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.952599
- Title: Klear-CodeTest: Scalable Test Case Generation for Code Reinforcement Learning
- Title(参考訳): Klear-CodeTest: コード強化学習のためのスケーラブルなテストケース生成
- Authors: Jia Fu, Xinyu Yang, Hongzhi Zhang, Yahui Liu, Jingyuan Zhang, Qi Wang, Fuzheng Zhang, Guorui Zhou,
- Abstract要約: Klear-CodeTestは、厳密な検証機能を備えた総合的なテストケース合成フレームワークで、テストケースの品質と信頼性を保証する。
提案したG-Vフレームワークは,正規ケースとコーナーケースの両方を含む総合的なテストケースを生成し,テストカバレッジと解の正当性評価のための識別力を向上させる。
さらに,オンライン検証プラットフォームに最適化された多層セキュリティサンドボックスシステムを設計し,安全で信頼性の高いコード実行を保証する。
- 参考スコア(独自算出の注目度): 30.496763535208522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precise, correct feedback is crucial for effectively training large language models (LLMs) in code reinforcement learning. However, synthesizing high-quality test cases remains a profoundly challenging and unsolved problem. In this work, we present Klear-CodeTest, a comprehensive test case synthesis framework featuring rigorous verification to ensure quality and reliability of test cases. Our approach achieves broad coverage of programming problems via a novel Generator-Validation (G-V) framework, ensuring correctness through a consistency validation mechanism that verifies outputs against gold solutions. The proposed G-V framework generates comprehensive test cases including both regular and corner cases, enhancing test coverage and discriminative power for solution correctness assessment in code reinforcement learning. In addition, we design a multi-layered security sandbox system optimized for online verification platforms, guaranteeing safe and reliable code execution. Through comprehensive experiments, we demonstrate the effectiveness of our curated dataset, showing significant improvements in model performance and training stability. The source codes, curated dataset and sandbox system are available at: https://github.com/Kwai-Klear/CodeTest.
- Abstract(参考訳): コード強化学習において、大規模言語モデル(LLM)を効果的に訓練するには、正確で正確なフィードバックが不可欠である。
しかし、高品質なテストケースを合成することは、非常に困難で未解決な問題である。
本稿では,テストケースの品質と信頼性を確保するための厳密な検証機能を備えた総合的なテストケース合成フレームワークであるKlear-CodeTestを紹介する。
提案手法は,新しいジェネレータ・バリデーション(G-V)フレームワークを用いてプログラミング問題を広範囲に網羅し,ゴールドソリューションに対する出力を検証する一貫性検証機構を通じて正確性を確保する。
提案したG-Vフレームワークは、正規ケースとコーナーケースの両方を含む包括的なテストケースを生成し、コード強化学習における解の正当性評価のためのテストカバレッジと識別力を高める。
さらに,オンライン検証プラットフォームに最適化された多層セキュリティサンドボックスシステムを設計し,安全で信頼性の高いコード実行を保証する。
包括的実験を通じて、キュレートされたデータセットの有効性を実証し、モデル性能とトレーニング安定性を著しく改善したことを示す。
ソースコード、キュレートされたデータセット、サンドボックスシステムは、https://github.com/Kwai-Klear/CodeTest.comで入手できる。
関連論文リスト
- Rethinking Verification for LLM Code Generation: From Generation to Testing [44.46778801679273]
大規模言語モデル(LLM)は最近、HumanEvalやLiveCodeBenchといったコード生成ベンチマークで顕著な成功を収めた。
本稿では,テストスーツの厳密な定量化を目的とした新しい多次元メトリクスを提案する。
実験の結果、SAGAは90.62%、検証器の精度はTCGBenchで32.58%に達することがわかった。
論文 参考訳(メタデータ) (2025-07-09T14:58:47Z) - CodeContests+: High-Quality Test Case Generation for Competitive Programming [14.602111331209203]
本稿では,競合プログラミング問題に対する高品質なテストケースを作成するエージェントシステムを提案する。
我々は、このシステムをCodeContestsデータセットに適用し、CodeContests+というテストケースを改善した新しいバージョンを提案する。
その結果、CodeContests+はCodeContestsよりもはるかに高い精度を実現し、特にTPR(True Positive Rate)が顕著であることがわかった。
論文 参考訳(メタデータ) (2025-06-06T07:29:01Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。
自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。
このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文 参考訳(メタデータ) (2025-03-04T19:17:36Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z) - SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。
我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なバグフィックス、ゴールデンテストを含む。
コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。
論文 参考訳(メタデータ) (2024-06-18T14:54:37Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。