論文の概要: Generating High-Quality Datasets for Code Editing via Open-Source Language Models
- arxiv url: http://arxiv.org/abs/2509.25203v2
- Date: Sun, 05 Oct 2025 14:52:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.890587
- Title: Generating High-Quality Datasets for Code Editing via Open-Source Language Models
- Title(参考訳): オープンソース言語モデルによるコード編集のための高品質データセットの生成
- Authors: Zekai Zhang, Mingwei Liu, Zhenxi Chen, Linxi Liang, Yuxuan Chen, Guangsheng Ou, Yanlin Wang, Dan Li, Xin Peng, Zibin Zheng,
- Abstract要約: 我々は,リアルなコード編集三脚を合成するオープンソースのパイプラインであるOpenCodeEditを紹介する。
パイプラインは簡潔な"遅延"命令とより詳細な"記述"命令の両方を生成し、データ品質と多様性を保証するために差分とトピックに基づいたフィルタリングを適用する。
OCEDataFTの細調整された3つのベースモデルは、CanItEditベンチマークで大幅なパフォーマンス向上をもたらし、相対パス@1は4.50%から20.79%まで改善された。
- 参考スコア(独自算出の注目度): 49.01026966779838
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Code editing plays a vital role in software engineering, requiring developers to adjust existing code according to natural language instructions while keeping functionality intact and avoiding unnecessary modifications. However, commit-based datasets commonly used for this task are often noisy, lack diversity, and fail to reflect the style of real-world edit instructions. To address this, we introduce OpenCodeEdit, an open-source pipeline that leverages multiple LLMs to synthesize realistic code-edit triplets. The pipeline produces both concise "lazy" instructions and more detailed "descriptive" ones, and applies filtering based on diffs and topics to guarantee data quality and variety. Using this process, we construct OCEDataFT, a curated dataset of 20K samples. Fine-tuning three advanced base models on OCEDataFT leads to significant performance boosts on the CanItEdit benchmark, with relative pass@1 improvements ranging from 4.50% to 20.79%. Notably, the resulting models achieve performance close to closed-source systems, narrowing the gap to GPT-4 to just 3.54%, without relying on proprietary resources or manual annotation.
- Abstract(参考訳): コード編集はソフトウェアエンジニアリングにおいて重要な役割を担い、開発者は自然言語の指示に従って既存のコードを調整し、機能をそのまま維持し、不要な修正を避ける必要がある。
しかしながら、このタスクで一般的に使用されるコミットベースのデータセットは、しばしばノイズが多く、多様性がなく、現実世界の編集命令のスタイルを反映できない。
この問題に対処するために,複数のLLMを活用して現実的なコード編集三脚を合成する,オープンソースのパイプラインであるOpenCodeEditを紹介した。
パイプラインは簡潔な"遅延"命令とより詳細な"記述"命令の両方を生成し、データ品質と多様性を保証するために差分とトピックに基づいたフィルタリングを適用する。
このプロセスを用いて、20KサンプルのキュレートされたデータセットであるOCEDataFTを構築する。
OCEDataFTの細調整された3つのベースモデルは、CanItEditベンチマークで大幅なパフォーマンス向上をもたらし、相対パス@1は4.50%から20.79%まで改善された。
特に、得られたモデルはクローズドソースシステムに近いパフォーマンスを実現し、プロプライエタリなリソースや手動のアノテーションに頼ることなく、GPT-4へのギャップを3.54%に縮める。
関連論文リスト
- Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents [34.55648227035844]
簡単なデータセットは、構造化されていないドキュメントから微調整データを合成するためのフレームワークである。
ユーザーはテキスト抽出モデルやチャンキング戦略を設定して、生文書を一貫性のあるテキストチャンクに変換することができる。
次に、ペルソナ駆動のプロンプトアプローチを活用して、多様な質問応答ペアを生成する。
財務質問応答タスクの実験により、合成データセット上の微調整LDMはドメイン固有の性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-07-05T11:38:59Z) - RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions [56.9437856499838]
スケーラブルな合成データ生成パイプラインでトレーニングされた命令ベースの編集モデルであるRefEditを紹介します。
私たちのRefEditは、わずか2万の編集三脚でトレーニングされており、何百万ものデータでトレーニングされたFlux/SD3モデルベースラインを上回っています。
論文 参考訳(メタデータ) (2025-06-03T23:20:24Z) - OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。
各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。
LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文 参考訳(メタデータ) (2025-04-05T02:52:16Z) - Bridging the Editing Gap in LLMs: FineEdit for Precise and Targeted Text Modifications [4.751608548909266]
FineEditは、コンテキスト対応のテキスト修正のために明示的に訓練された特殊な編集モデルである。
FineEditはシングルターン編集で最先端のモデルより優れており、Llama-3.2-3Bより30%も上回り、Mistral-7B-OpenOrcaのパフォーマンスを40%以上上回っている。
論文 参考訳(メタデータ) (2025-02-19T01:41:44Z) - Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - InstructCoder: Instruction Tuning Large Language Models for Code Editing [26.160498475809266]
ユーザインストラクションに基づいたコード編集にLLM(Large Language Models)を用いる方法について検討する。
InstructCoderは、汎用コード編集にLLMを適用するために設計された最初の命令チューニングデータセットである。
InstructCoderで微調整されたオープンソースのLLMは、コード編集の精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-10-31T10:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。