Fugu-MT 論文翻訳(概要): Infinite-Instruct: Synthesizing Scaling Code instruction Data with Bidirectional Synthesis and Static Verification

論文の概要: Infinite-Instruct: Synthesizing Scaling Code instruction Data with Bidirectional Synthesis and Static Verification

arxiv url: http://arxiv.org/abs/2505.23177v1
Date: Thu, 29 May 2025 07:14:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.7294
Title: Infinite-Instruct: Synthesizing Scaling Code instruction Data with Bidirectional Synthesis and Static Verification
Title（参考訳）: Infinite-Instruct:双方向合成と静的検証によるスケーリングコード命令データの合成
Authors: Wenjing Xing, Wenke Lu, Yeheng Duan, Bing Zhao, Zhenghui kang, Yaolong Wang, Kai Gao, Lei Qiao,
Abstract要約: Infinite-Instructは高品質な質問応答ペアのための自動フレームワークである。このフレームワークは、合成問題の内部ロジックの改善に焦点を当てている。言語間の静的コード解析パイプラインは、データ品質を保証するために無効なサンプルをフィルタする。
参考スコア（独自算出の注目度）: 9.332807762710127
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Traditional code instruction data synthesis methods suffer from limited diversity and poor logic. We introduce Infinite-Instruct, an automated framework for synthesizing high-quality question-answer pairs, designed to enhance the code generation capabilities of large language models (LLMs). The framework focuses on improving the internal logic of synthesized problems and the quality of synthesized code. First, "Reverse Construction" transforms code snippets into diverse programming problems. Then, through "Backfeeding Construction," keywords in programming problems are structured into a knowledge graph to reconstruct them into programming problems with stronger internal logic. Finally, a cross-lingual static code analysis pipeline filters invalid samples to ensure data quality. Experiments show that on mainstream code generation benchmarks, our fine-tuned models achieve an average performance improvement of 21.70% on 7B-parameter models and 36.95% on 32B-parameter models. Using less than one-tenth of the instruction fine-tuning data, we achieved performance comparable to the Qwen-2.5-Coder-Instruct. Infinite-Instruct provides a scalable solution for LLM training in programming. We open-source the datasets used in the experiments, including both unfiltered versions and filtered versions via static analysis. The data are available at https://github.com/xingwenjing417/Infinite-Instruct-dataset
Abstract（参考訳）: 従来のコード命令データ合成法は、限られた多様性と貧弱な論理に悩まされている。 Infinite-Instructは,大規模言語モデル(LLM)のコード生成能力を高めるために設計された高品質な質問応答ペアを合成するフレームワークである。このフレームワークは、合成された問題の内部ロジックの改善と、合成されたコードの品質に焦点を当てている。まず、"リバースコンストラクション"はコードスニペットを多様なプログラミング問題に変換する。そして、"Backfeeding Construction"を通じて、プログラミング問題のキーワードを知識グラフに構造化し、より強力な内部論理を持つプログラミング問題に再構成する。最後に、言語間静的コード解析パイプラインは、不正なサンプルをフィルタして、データ品質を保証する。実験の結果,コード生成ベンチマークでは7Bパラメータモデルでは21.70%,32Bパラメータモデルでは36.95%の性能向上が得られた。 Qwen-2.5-Coder-Instructに匹敵する性能を実現した。 Infinite-Instructは、プログラミングにおけるLLMトレーニングのためのスケーラブルなソリューションを提供する。静的解析によってフィルタされていないバージョンとフィルタリングされたバージョンの両方を含む、実験で使用されるデータセットをオープンソースにしています。データはhttps://github.com/xingwenjing417/Infinite-Instruct-datasetで公開されている。

関連論文リスト

OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique [59.18475981916166]
OpenCodeReasoning-IIは、250万の質問解決批判三部作からなるデータセットである(約35万のユニークなプログラミング質問)。本研究では,2段階の教師付き微調整戦略を採用する。第1段階はコード生成のための微調整に焦点を当て,第2段階はコード生成と批判の両方のためのモデルの共同トレーニングを行う。特に,コード生成と批判モデルの統合は,競争力のある符号化性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-07-11T23:35:54Z)
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
Robust Learning of Diverse Code Edits [10.565439872488328]
ソフトウェアエンジニアリングのアクティビティは、しばしば既存のコードへの編集を伴います。コード言語モデル(LM)には、さまざまなタイプのコード編集要求を処理する能力がない。本稿では,新しい合成データ生成パイプラインと適応アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-05T16:39:04Z)
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文参考訳（メタデータ） (2025-03-04T19:17:36Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
Training Language Models on Synthetic Edit Sequences Improves Code Synthesis [33.13471417703669]
言語モデル(LM)はプログラムを1回のパスで自動的に合成する。コード合成のための高品質な命令データが不足している一方で、合成のための編集データが不足している。我々はこのギャップを埋めるためにLintSeqと呼ばれる合成データ生成アルゴリズムを開発した。
論文参考訳（メタデータ） (2024-10-03T17:57:22Z)
LogicPro: Improving Complex Logical Reasoning via Program-Guided Learning [23.987059076950622]
テキスト形式で複雑なアンダーライン論理推論データを合成する textbfLogicPro という新しいデータ合成手法を提案する。私たちは、困難でスケーラブルで効果的で、黄金の標準回答と高品質な推論プロセスを備えたデータを合成します。提案手法は,データセットの textitBBH$27$, textitLogicBench, textitDROP, textitAR-LSAT, textitGSM8K の複数のモデルにおいて,大幅な改善を実現する。
論文参考訳（メタデータ） (2024-09-19T17:30:45Z)
Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。自動エンコーダのコンテキストでデコードすることで更新される。ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文参考訳（メタデータ） (2020-02-27T05:58:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。