論文の概要: ScaleBox: Enabling High-Fidelity and Scalable Code Verification for Large Language Models
- arxiv url: http://arxiv.org/abs/2604.27467v1
- Date: Thu, 30 Apr 2026 06:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.948601
- Title: ScaleBox: Enabling High-Fidelity and Scalable Code Verification for Large Language Models
- Title(参考訳): ScaleBox: 大規模言語モデルのための高忠実でスケーラブルなコード検証を実現する
- Authors: Jiasheng Zheng, Xin Zheng, Boxi Cao, Pengbo Wang, Zhengzhao Ma, Qiming Zhu, Jiazhen Jiang, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun,
- Abstract要約: コードサンドボックスは、大規模言語モデルのコーディング能力を向上するための重要な基盤として登場した。
既存のシステムは、高精度なワークロード下で正確な検証と効率を提供することができない。
大規模なコードトレーニングにおいてこれらの制限に対処するために設計された,高忠実でスケーラブルなシステムであるScaleBoxを紹介する。
- 参考スコア(独自算出の注目度): 65.56970356058655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code sandboxes have emerged as a critical infrastructure for advancing the coding capabilities of large language models, providing verifiable feedback for both RL training and evaluation. However, existing systems fail to provide accurate verification and efficiency under high-concurrency workloads. We present ScaleBox, a high-fidelity and scalable system designed to address these limitations in large-scale code training. ScaleBox introduces automated special-judge generation and management, fine-grained parallel execution across test cases with seamless multi-node coordination, and a configuration-driven evaluation suite for reproducible benchmarking. A series of experiments demonstrates that ScaleBox significantly enhances code verification accuracy and efficiency. Our further RLVR experiments show that ScaleBox substantially improves both performance on LiveCodeBench and training stability, significantly outperforming heuristic-matching baselines. By providing a reliable and high-throughput infrastructure, ScaleBox facilitates more effective research and development in large-scale code training.
- Abstract(参考訳): コードサンドボックスは、大規模な言語モデルのコーディング能力を向上するための重要な基盤として現れ、RLトレーニングと評価の両方に検証可能なフィードバックを提供している。
しかし、既存のシステムは高精度なワークロード下で正確な検証と効率を提供していない。
大規模なコードトレーニングにおいてこれらの制限に対処するために設計された,高忠実でスケーラブルなシステムであるScaleBoxを紹介する。
ScaleBoxは、自動の特殊タスク生成と管理、シームレスなマルチノード調整を伴うテストケース間のきめ細かい並列実行、再現可能なベンチマークのための構成駆動評価スイートを導入している。
一連の実験は、ScaleBoxがコード検証の精度と効率を大幅に向上させることを示した。
RLVRのさらなる実験により、ScaleBoxはLiveCodeBenchのパフォーマンスとトレーニングの安定性の両方を大幅に改善し、ヒューリスティックマッチングベースラインを著しく上回っていることがわかった。
信頼性と高スループットのインフラストラクチャを提供することで、ScaleBoxは大規模なコードトレーニングにおいて、より効果的な研究と開発を支援します。
関連論文リスト
- CodeScaler: Scaling Code LLM Training and Test-Time Inference via Execution-Free Reward Models [32.910307078704996]
コード生成のための強化学習トレーニングとテスト時間推論の両方をスケールするために設計された実行自由報酬モデル。
CodeScalerはQwen3-8Bベースを平均+11.72ポイント改善し、バイナリ実行ベースのRLを+1.82ポイント上回る。
論文 参考訳(メタデータ) (2026-02-04T17:56:00Z) - Aletheia: What Makes RLVR For Code Verifiers Tick? [51.371034079170435]
Reinforcement Learning from Verifiable Rewards (RLVR)を通じてトレーニングされた検証は、Large Language Model (LLM)ポストトレーニングパイプラインの顕著なフィクスチャである。
コード検証は、実行フィードバックを得るのが難しいシナリオにおいて、モデル出力を判断する上で価値があります。
本稿では,RLVRを用いた検証学習手法の構成要素を検証し,その有効性を検証した。
論文 参考訳(メタデータ) (2026-01-17T22:30:45Z) - Klear-CodeTest: Scalable Test Case Generation for Code Reinforcement Learning [43.30900834053253]
Klear-CodeTestは、厳密な検証機能を備えた総合的なテストケース合成フレームワークで、テストケースの品質と信頼性を保証する。
提案したG-Vフレームワークは,正規ケースとコーナーケースの両方を含む総合的なテストケースを生成し,テストカバレッジと解の正当性評価のための識別力を向上させる。
さらに,オンライン検証プラットフォームに最適化された多層セキュリティサンドボックスシステムを設計し,安全で信頼性の高いコード実行を保証する。
論文 参考訳(メタデータ) (2025-08-07T07:36:01Z) - Towards Effective Code-Integrated Reasoning [89.47213509714578]
モデルが必要に応じてコードを生成するコード統合推論について検討し、コードインタプリタを通じてそれを実行することによってフィードバックを統合する。
ツール強化強化学習は、学習力学における潜在的な不安定さに悩まされる可能性がある。
我々は、探索と安定性のバランスをとるための強化されたトレーニング戦略を開発し、推論性能を改善しながら、ツールの利用能力を徐々に構築する。
論文 参考訳(メタデータ) (2025-05-30T11:30:18Z) - VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models [53.128374915958624]
OpenAI o1とDeepSeek-R1は、推論の領域で素晴らしいパフォーマンスを達成した。
彼らのトレーニングの重要な要素は、強化学習に検証可能な報酬を取り入れることである。
既存の報酬ベンチマークでは、参照ベースの報酬システムの評価は行われていない。
論文 参考訳(メタデータ) (2025-05-21T17:54:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。