論文の概要: Increasing LLM Coding Capabilities through Diverse Synthetic Coding Tasks
- arxiv url: http://arxiv.org/abs/2510.23208v1
- Date: Mon, 27 Oct 2025 10:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.52669
- Title: Increasing LLM Coding Capabilities through Diverse Synthetic Coding Tasks
- Title(参考訳): 逆合成符号化タスクによるLLM符号化能力の向上
- Authors: Amal Abed, Ivan Lukic, Jörg K. H. Franke, Frank Hutter,
- Abstract要約: 大規模言語モデル(LLM)は、コード生成において素晴らしい可能性を示しています。
800k近い命令推論コードテスト四重項を生成するスケーラブルな合成データ生成パイプラインを提案する。
- 参考スコア(独自算出の注目度): 41.75017840131367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown impressive promise in code generation, yet their progress remains limited by the shortage of large-scale datasets that are both diverse and well-aligned with human reasoning. Most existing resources pair problems with solutions, but omit the intermediate thought process that guides coding. To close this gap, we present a scalable synthetic data generation pipeline that produces nearly 800k instruction-reasoning-code-test quadruplets. Each sample combines a task, a step-by-step reasoning trace, a working solution, and executable tests, enabling models to learn not just the what but also the how of problem solving. Our pipeline combines four key components: curated contest problems, web-mined content filtered by relevance classifiers, data expansion guided by reasoning patterns, and multi-stage execution-based validation. A genetic mutation algorithm further increases task diversity while maintaining consistency between reasoning traces and code implementations. Our key finding is that fine-tuning LLMs on this dataset yields consistent improvements on coding benchmarks. Beyond raw accuracy, reasoning-aware data can substitute for model scaling, generalize across architectures, and outperform leading open-source alternatives under identical sample budgets. Our work establishes reasoning-centered synthetic data generation as an efficient approach for advancing coding capabilities in LLMs. We publish our dataset and generation pipeline to facilitate further research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成において目覚ましい将来性を示しているが、その進歩は、多様かつ人間の推論に整合した大規模データセットの不足によって制限されている。
既存のリソースのほとんどはソリューションと問題をペアリングするが、コーディングを導く中間的思考プロセスを省略する。
このギャップを埋めるために,800k近い命令推論コードテスト四重項を生成するスケーラブルな合成データ生成パイプラインを提案する。
各サンプルは、タスク、ステップバイステップの推論トレース、動作するソリューション、実行可能なテストを組み合わせることで、モデルが問題の解決方法だけでなく、どのようにして学ぶことができる。
我々のパイプラインは、キュレートされたコンテスト問題、関連分類器によってフィルタリングされたWebマイニングコンテンツ、推論パターンでガイドされたデータ拡張、マルチステージ実行ベースの検証の4つの重要なコンポーネントを組み合わせています。
遺伝的突然変異アルゴリズムは、推論トレースとコード実装の一貫性を維持しながら、タスクの多様性をさらに向上させる。
私たちの重要な発見は、このデータセット上の微調整LDMは、コーディングベンチマークにおいて一貫した改善をもたらすということです。
生の正確性以外にも、推論対応のデータは、モデルのスケーリングに代えて、アーキテクチャを一般化し、同じサンプル予算の下で主要なオープンソース代替品より優れている。
我々の研究は、LLMにおける符号化能力向上のための効率的なアプローチとして、推論中心の合成データ生成を確立する。
我々は、さらなる研究を促進するためにデータセットと生成パイプラインを公開します。
関連論文リスト
- Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。
LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。
LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (2025-09-03T06:42:40Z) - VERIRL: Boosting the LLM-based Verilog Code Generation via Reinforcement Learning [32.974199255760944]
本稿では,Verilogコード生成に適した強化学習フレームワークを提案する。
スパース信号と雑音信号に対処するために,トレースバックに基づくRescore機構を提案する。
RL微調整中の破滅的忘れと過適合を軽減するため,サンプルバランスの重み付け戦略を導入する。
論文 参考訳(メタデータ) (2025-08-25T20:20:44Z) - Synthesis by Design: Controlled Data Generation via Structural Guidance [7.938713951512933]
数学的推論から生成した問題解決コードを用いて構造情報を抽出する。
提案手法は,ラベル付き中間ステップと6.1K-problemベンチマークで39Kの問題を発生させる。
ベンチマークの結果,推論長の増加に伴いモデル性能が低下することが示された。
論文 参考訳(メタデータ) (2025-06-09T11:38:23Z) - Synthetic Data Generation Using Large Language Models: Advances in Text and Code [0.0]
大規模言語モデル(LLM)は、自然言語とコードドメインの両方で合成トレーニングデータ生成を変換している。
我々は、プロンプトベースの生成、検索拡張パイプライン、反復的な自己精製といった重要なテクニックを強調した。
本稿では,生成テキストにおける事実的不正確性,文体的あるいは分布的リアリズムの不足,バイアス増幅のリスクなど,関連する課題について論じる。
論文 参考訳(メタデータ) (2025-03-18T08:34:03Z) - UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。