論文の概要: rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset
- arxiv url: http://arxiv.org/abs/2505.21297v1
- Date: Tue, 27 May 2025 15:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.736114
- Title: rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset
- Title(参考訳): rStar-Coder: 大規模検証データセットによる競合コード推論のスケーリング
- Authors: Yifei Liu, Li Lyna Zhang, Yi Zhu, Bingcheng Dong, Xudong Zhou, Ning Shang, Fan Yang, Mao Yang,
- Abstract要約: rStar-Coderは、418Kのコード問題、580Kの長推論ソリューション、さまざまな困難を伴うリッチテストケースの大規模かつ検証されたデータセットである。
LiveCodeBenchでは、rStar-CoderはQwen2.5-7Bを17.4%から57.3%に改善し、Qwen2.5-14Bを23.3%から62.5%に改善し、o3-mini(以下)を3.1%上回る。
- 参考スコア(独自算出の注目度): 13.309261291558146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancing code reasoning in large language models (LLMs) is fundamentally limited by the scarcity of high-difficulty datasets, especially those with verifiable input-output test cases necessary for rigorous solution validation at scale. We introduce rStar-Coder, which significantly improves LLM code reasoning capabilities by constructing a large-scale, verified dataset of 418K competition-level code problems, 580K long-reasoning solutions along with rich test cases of varying difficulty. This is achieved through three core contributions: (1) we curate competitive programming code problems and oracle solutions to synthesize new, solvable problems; (2) we introduce a reliable input-output test case synthesis pipeline that decouples the generation into a three-step input generation method and a mutual verification mechanism for effective output labeling; (3) we augment problems with high-quality, test-case-verified long-reasoning solutions. Extensive experiments on Qwen models (1.5B-14B) across various code reasoning benchmarks demonstrate the superiority of rStar-Coder dataset, achieving leading performance comparable to frontier reasoning LLMs with much smaller model sizes. On LiveCodeBench, rStar-Coder improves Qwen2.5-7B from 17.4% to an impressive 57.3%, and Qwen2.5-14B from 23.3% to 62.5%, surpassing o3-mini (low) by3.1%. On the more challenging USA Computing Olympiad, our 7B model achieves an average pass@1 accuracy of 16.15%, outperforming the frontier-level QWQ-32B. Code and the dataset will be released at https://github.com/microsoft/rStar.
- Abstract(参考訳): 大規模言語モデル (LLM) におけるコード推論の強化は、特に厳密な解検証に必要な入力出力テストケースを大規模に検証するデータセットの不足により、基本的に制限されている。
rStar-Coderは,418Kの競合レベルのコード問題,580Kの長推論ソリューション,そして様々な困難を伴うリッチなテストケースの大規模かつ検証済みのデータセットを構築することで,LLMのコード推論能力を大幅に向上させる。
提案手法は,(1) 競合するプログラミングコード問題やオラクルソリューションをキュレートして,新たな可解な問題を合成する,(2) 信頼性の高い入出力テストケース合成パイプラインを導入し,その生成を3段階の入力生成法と,有効出力ラベリングのための相互検証機構に分解する,(3) 高品質でテストケースを検証した長期推論ソリューションによる問題を増大させる,という3つのコアコントリビューションによって実現される。
様々なコード推論ベンチマークにおけるQwenモデル(1.5B-14B)の大規模な実験は、rStar-Coderデータセットの優位性を示し、モデルサイズがはるかに小さいフロンティア推論LLMに匹敵するパフォーマンスを達成する。
LiveCodeBenchでは、rStar-CoderはQwen2.5-7Bを17.4%から57.3%に改善し、Qwen2.5-14Bを23.3%から62.5%に改善し、o3-mini(以下)を3.1%上回る。
より困難なUSA Computing Olympiadでは、我々の7Bモデルは平均パス@1精度を16.15%達成し、フロンティアレベルのQWQ-32Bを上回っている。
コードとデータセットはhttps://github.com/microsoft/rStarで公開される。
関連論文リスト
- KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。
自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。
このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文 参考訳(メタデータ) (2025-03-04T19:17:36Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z) - Uncovering Weaknesses in Neural Code Generation [21.552898575210534]
マッチングベースのメトリクスと実行ベースのメトリクスを用いて生成されたコードの品質を評価し、その後、セマンティック分析を行い、9種類の弱点の分類法を開発する。
CoNaLaデータセットでは、不正確なプロンプトが顕著な問題であり、すべての大きなモデルが26.84%のケースで失敗する。
CoNaLaタスクの65.78%でキーセマンティクスを省略する1つ以上の大きなモデルがある。
すべてのモデルは、あいまいなプロンプトや複雑なプロンプトによって増幅された、適切なAPI使用に苦しむ。
論文 参考訳(メタデータ) (2024-07-13T07:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。