論文の概要: SWE-Tester: Training Open-Source LLMs for Issue Reproduction in Real-World Repositories
- arxiv url: http://arxiv.org/abs/2601.13713v1
- Date: Tue, 20 Jan 2026 08:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.221769
- Title: SWE-Tester: Training Open-Source LLMs for Issue Reproduction in Real-World Repositories
- Title(参考訳): SWE-Tester: リアルタイムリポジトリにおける課題再現のためのオープンソースLLMのトレーニング
- Authors: Aditya Bharat Soni, Rajat Ghosh, Vaishnavi Bhargava, Valerie Chen, Debojyoti Dutta,
- Abstract要約: SWE-Testerは、問題再現テストを生成するためにオープンソースのLLMをトレーニングするための新しいパイプラインである。
まず、オープンソースのGitHubリポジトリ2.6Kから41Kインスタンスの高品質なトレーニングデータセットをキュレートします。
微調整されたモデルでは、SWT-Bench Verifiedにおける最大10%の成功率と21%の変更カバレッジの絶対的な改善を実現している。
- 参考スコア(独自算出の注目度): 4.70019882353957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software testing is crucial for ensuring the correctness and reliability of software systems. Automated generation of issue reproduction tests from natural language issue descriptions enhances developer productivity by simplifying root cause analysis, promotes test-driven development -- "test first, write code later", and can be used for improving the effectiveness of automated issue resolution systems like coding agents. Existing methods proposed for this task predominantly rely on closed-source LLMs, with limited exploration of open models. To address this, we propose SWE-Tester -- a novel pipeline for training open-source LLMs to generate issue reproduction tests. First, we curate a high-quality training dataset of 41K instances from 2.6K open-source GitHub repositories and use it to train LLMs of varying sizes and families. The fine-tuned models achieve absolute improvements of up to 10\% in success rate and 21\% in change coverage on SWT-Bench Verified. Further analysis shows consistent improvements with increased inference-time compute, more data, and larger models. These results highlight the effectiveness of our framework for advancing open-source LLMs in this domain.
- Abstract(参考訳): ソフトウェアテストは、ソフトウェアシステムの正確性と信頼性を保証するために不可欠である。
自然言語のイシュー記述からのイシュー再現テストの自動生成は、ルート原因分析を簡素化し、テスト駆動開発を促進する -- “テストファースト、後でコードを書く”ことで開発者の生産性を高め、コーディングエージェントのような自動イシュー解決システムの有効性向上に使用することができる。
このタスクのために提案された既存の手法は、主にオープンモデルの限定的な探索を伴う、クローズドソース LLM に依存している。
この問題に対処するために,オープンソースのLLMをトレーニングして問題再現テストを生成する,新たなパイプラインであるSWE-Testerを提案する。
まず、オープンソースの2.6Kリポジトリから41Kインスタンスの高品質なトレーニングデータセットをキュレートし、さまざまなサイズとファミリーのLLMをトレーニングするために使用します。
微調整されたモデルでは、SWT-Bench検証における最大10\%、21\%の絶対的な改善が達成される。
さらなる分析では、推論時間計算の増加、より多くのデータ、より大きなモデルで一貫した改善が示される。
これらの結果は,この領域におけるオープンソース LLM の進展に向けた我々のフレームワークの有効性を浮き彫りにしている。
関連論文リスト
- Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [12.503002900186997]
大規模言語モデル(LLM)は自動テストケース生成で人気を集めている。
LLMは大量のオープンソースコードでトレーニングされているため、ベストプラクティスに従わないテストケースをしばしば生成します。
静的解析に基づく品質指標に基づく高品質な単体テストを生成するために,RLSQM(Reinforcement Learning from Static Quality Metrics)を提案する。
論文 参考訳(メタデータ) (2024-12-18T20:20:01Z) - On the Evaluation of Large Language Models in Unit Test Generation [16.447000441006814]
単体テストは、ソフトウェアコンポーネントの正しさを検証するために、ソフトウェア開発において不可欠な活動である。
LLM(Large Language Models)の出現は、ユニットテスト生成を自動化するための新しい方向性を提供する。
論文 参考訳(メタデータ) (2024-06-26T08:57:03Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [12.503002900186997]
大規模言語モデル(LLM)は、テストケースの自動生成を含むコード生成で人気を集めている。
LLMは、多くの場合、大量の公開コードでトレーニングされ、ベストプラクティスに従わないテストケースを含む。
RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T18:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。