論文の概要: SWE-Mirror: Scaling Issue-Resolving Datasets by Mirroring Issues Across Repositories
- arxiv url: http://arxiv.org/abs/2509.08724v1
- Date: Wed, 10 Sep 2025 16:15:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.496568
- Title: SWE-Mirror: Scaling Issue-Resolving Datasets by Mirroring Issues Across Repositories
- Title(参考訳): SWE-Mirror:リポジトリ間の課題のミラーリングによる課題解決データセットのスケーリング
- Authors: Junhao Wang, Daoguang Zan, Shulin Xin, Siyao Liu, Yurong Wu, Kai Shen,
- Abstract要約: SWE-Mirrorは、現実世界のイシューのセマンティックセマンティクスを蒸留し、設定されたGym環境で他のレポジトリにミラーし、検証可能なイシュー解決タスクとして再認識するパイプラインである。
4つの言語にわたる40のリポジトリにSWE-Mirrorを適用することで、60,671の問題解決タスクを備えたデータセットをキュレートしました。
トレーニング後の実験は、データセットでトレーニングされたモデルが問題解決能力を改善することを示している。
- 参考スコア(独自算出の注目度): 15.458389392000706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating large-scale verifiable training datasets for issue-resolving tasks is a critical yet notoriously difficult challenge. Existing methods on automating the Gym environment setup process for real-world issues suffer from low success rates and high overhead. Meanwhile, synthesizing new tasks within existing Gym environments leaves the vast pool of authentic, human-reported problems untapped. To maximize the utilization of existing Gym environments and also the rich data of issue-resolving history on GitHub, we introduce SWE-Mirror, a pipeline that distills a real-world issue's semantic essence, mirrors it into another repository with a configured Gym environment, and re-animates it as a verifiable issue-resolving task. SWE-Mirror reuses existing Gym environments along with the vast pool of issue-resolving history hosted on GitHub to construct a large-scale dataset of mirrored authentic and verifiable tasks. Applying SWE-Mirror to 40 repositories across 4 languages, we have curated a dataset with 60,671 issue-resolving tasks and demonstrated the value of our dataset by training and evaluating coding agents at various scale. Post-training experiments show that models trained with the dataset exhibit improvements in issue-resolving capabilities. Furthermore, by extending the dataset size to over 12,000 high-quality trajectories, we established a new state-of-the-art (SOTA) among Qwen2.5-Coder-Instruct based LLMs on the OpenHands agent framework, which increases the resolve rate on SWE-Bench-Verified by +21.8% for the 7B model and +46.0% for the 32B model and validates the effectiveness of our approach.
- Abstract(参考訳): 課題解決タスクのための大規模な検証可能なトレーニングデータセットを作成することは、批判的だが、非常に難しい課題である。
Gym環境設定プロセスを現実の課題に対して自動化する既存の手法は、成功率の低下とオーバーヘッドの増大に悩まされている。
一方、既存のGym環境の中で新しいタスクを合成することは、真正で人間に報告された大量の問題を未解決のまま残している。
既存のGym環境とGitHubの課題解決履歴の豊富なデータの利用を最大化するために、現実の課題の意味を蒸留し、設定されたGym環境で別のリポジトリにミラーし、検証可能な課題解決タスクとして再認識するパイプラインであるSWE-Mirrorを紹介します。
SWE-Mirrorは既存のGym環境を再利用し、GitHubにホストされている大量のイシュー解決履歴を再利用して、ミラー化された本物で検証可能なタスクの大規模なデータセットを構築する。
SWE-Mirrorを4言語にわたる40のリポジトリに適用し、60,671の課題解決タスクを備えたデータセットをキュレートし、さまざまなスケールでコーディングエージェントをトレーニングし評価することで、データセットの価値を実証しました。
トレーニング後の実験は、データセットでトレーニングされたモデルが問題解決能力を改善することを示している。
さらに,SWE-Bench-Verifiedの7Bモデルでは+21.8%,32Bモデルでは+46.0%の精度でSWE-Bench-Verifiedの解決率を高め,提案手法の有効性を検証した。
関連論文リスト
- Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs [19.766885088032932]
ソフトウェアエンジニアリング(SWE)は、次世代のLLMエージェントにとって重要なテストベッドとして登場した。
既存のデータセットのほとんどは、わずか数千のGitHubソースインスタンスに制限されている。
SWEデータセットのボリュームと多様性の両方を体系的にスケールするインクリメンタルな自動データキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-06-24T03:53:36Z) - SWE-bench Goes Live! [39.295587503671015]
大規模言語モデル(LLM)のためのライブ更新可能なベンチマークであるSWE-bench-Liveを提案する。
最初のリリースは、2024年以降に作成された実際のGitHubイシューから派生した1,319のタスクで構成されています。
私たちのベンチマークの中心は、インスタンス生成から環境設定までのプロセス全体を合理化する自動キュレーションパイプラインであるメソッドです。
論文 参考訳(メタデータ) (2025-05-29T13:09:44Z) - SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents [34.16732444158405]
LLMベースのエージェントは、SWE(Software Engineering)タスクの増加に期待できる能力を示している。
高品質なトレーニングデータは、特に現実世界のSWEシナリオを反映したデータが少ない。
既存のデータセットはワンショットのコード生成に限られるか、小さな手作業による対話的なタスクのコレクションで構成されている。
論文 参考訳(メタデータ) (2025-05-26T18:01:00Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
不完全なドキュメンテーション、不正確なラベル、倫理的懸念、時代遅れの情報といったデータ品質問題は、広く使われているデータセットで共通している。
大きな言語モデル(LLM)の急増する能力により、LLMエージェントによる隠れデータセット問題の発見の合理化が約束されている。
本研究では,この課題に対処するLLMエージェントの能力を評価するためのベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。