Fugu-MT 論文翻訳(概要): SWE-Tester: Training Open-Source LLMs for Issue Reproduction in Real-World Repositories

論文の概要: SWE-Tester: Training Open-Source LLMs for Issue Reproduction in Real-World Repositories

arxiv url: http://arxiv.org/abs/2601.13713v1
Date: Tue, 20 Jan 2026 08:10:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-21 22:47:23.221769
Title: SWE-Tester: Training Open-Source LLMs for Issue Reproduction in Real-World Repositories
Title（参考訳）: SWE-Tester: リアルタイムリポジトリにおける課題再現のためのオープンソースLLMのトレーニング
Authors: Aditya Bharat Soni, Rajat Ghosh, Vaishnavi Bhargava, Valerie Chen, Debojyoti Dutta,
Abstract要約: SWE-Testerは、問題再現テストを生成するためにオープンソースのLLMをトレーニングするための新しいパイプラインである。まず、オープンソースのGitHubリポジトリ2.6Kから41Kインスタンスの高品質なトレーニングデータセットをキュレートします。微調整されたモデルでは、SWT-Bench Verifiedにおける最大10%の成功率と21%の変更カバレッジの絶対的な改善を実現している。
参考スコア（独自算出の注目度）: 4.70019882353957
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Software testing is crucial for ensuring the correctness and reliability of software systems. Automated generation of issue reproduction tests from natural language issue descriptions enhances developer productivity by simplifying root cause analysis, promotes test-driven development -- "test first, write code later", and can be used for improving the effectiveness of automated issue resolution systems like coding agents. Existing methods proposed for this task predominantly rely on closed-source LLMs, with limited exploration of open models. To address this, we propose SWE-Tester -- a novel pipeline for training open-source LLMs to generate issue reproduction tests. First, we curate a high-quality training dataset of 41K instances from 2.6K open-source GitHub repositories and use it to train LLMs of varying sizes and families. The fine-tuned models achieve absolute improvements of up to 10\% in success rate and 21\% in change coverage on SWT-Bench Verified. Further analysis shows consistent improvements with increased inference-time compute, more data, and larger models. These results highlight the effectiveness of our framework for advancing open-source LLMs in this domain.
Abstract（参考訳）: ソフトウェアテストは、ソフトウェアシステムの正確性と信頼性を保証するために不可欠である。自然言語のイシュー記述からのイシュー再現テストの自動生成は、ルート原因分析を簡素化し、テスト駆動開発を促進する -- “テストファースト、後でコードを書く”ことで開発者の生産性を高め、コーディングエージェントのような自動イシュー解決システムの有効性向上に使用することができる。このタスクのために提案された既存の手法は、主にオープンモデルの限定的な探索を伴う、クローズドソース LLM に依存している。この問題に対処するために,オープンソースのLLMをトレーニングして問題再現テストを生成する,新たなパイプラインであるSWE-Testerを提案する。まず、オープンソースの2.6Kリポジトリから41Kインスタンスの高品質なトレーニングデータセットをキュレートし、さまざまなサイズとファミリーのLLMをトレーニングするために使用します。微調整されたモデルでは、SWT-Bench検証における最大10\%、21\%の絶対的な改善が達成される。さらなる分析では、推論時間計算の増加、より多くのデータ、より大きなモデルで一貫した改善が示される。これらの結果は,この領域におけるオープンソース LLM の進展に向けた我々のフレームワークの有効性を浮き彫りにしている。

関連論文リスト

Test-time Recursive Thinking: Self-Improvement without External Feedback [120.80790108733942]
TRT(Test-time Recursive Thinking)は、反復的な自己改善フレームワークである。オープンソースモデルはAIME-25/24で100%精度に達し、LiveCodeBenchの最も難しい問題では、クローズドソースモデルは外部からのフィードバックなしで10.4-14.8ポイント改善されている。
論文参考訳（メタデータ） (2026-02-03T04:37:37Z)
An Experimental Study of Real-Life LLM-Proposed Performance Improvements [2.503024366864326]
大きな言語モデル(LLM)はコードを生成することができますが、高速コードを生成することができますか? 我々は,オープンソースのJavaプログラムから抽出した65の実世界のタスクのデータセットを用いて,この問題を研究する。
論文参考訳（メタデータ） (2025-10-17T10:06:52Z)
Test-Time Learning for Large Language Models [33.11605667376906]
大規模言語モデル(LLM)のためのテスト時間学習(TTL)パラダイムを提案する。 LLMはテスト中にラベルなしのテストデータのみを使用してターゲットドメインに動的に適応する。 TLMはドメイン知識適応における元のLLMと比較して少なくとも20%性能が向上することを示す。
論文参考訳（メタデータ） (2025-05-27T02:18:59Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Optimizing Knowledge Integration in Retrieval-Augmented Generation with Self-Selection [72.92366526004464]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) がより正確で信頼性の高い応答を生成するのに有効であることが証明されている。本稿では,自己選択型RAGフレームワークを提案する。このフレームワークでは,内部パラメトリック知識のみで生成されたペアの応答からLLMを選択できる。
論文参考訳（メタデータ） (2025-02-10T04:29:36Z)
Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [12.503002900186997]
大規模言語モデル(LLM)は自動テストケース生成で人気を集めている。 LLMは大量のオープンソースコードでトレーニングされているため、ベストプラクティスに従わないテストケースをしばしば生成します。静的解析に基づく品質指標に基づく高品質な単体テストを生成するために,RLSQM(Reinforcement Learning from Static Quality Metrics)を提案する。
論文参考訳（メタデータ） (2024-12-18T20:20:01Z)
Efficiency Unleashed: Inference Acceleration for LLM-based Recommender Systems with Speculative Decoding [61.45448947483328]
LLMベースのレコメンダシステム(LASER)の投機的復号化によるロスレス高速化について紹介する。 LASERは、検索効率を高めるためのカスタマイズされた検索プールと、ドラフトトークンの受け入れ率を改善するための緩和検証を備えている。 LASERは公開データセットの3～5倍のスピードアップを実現し、オンラインA/Bテスト中に約67%の計算リソースを節約する。
論文参考訳（メタデータ） (2024-08-11T02:31:13Z)
On the Evaluation of Large Language Models in Unit Test Generation [16.447000441006814]
単体テストは、ソフトウェアコンポーネントの正しさを検証するために、ソフトウェア開発において不可欠な活動である。 LLM(Large Language Models)の出現は、ユニットテスト生成を自動化するための新しい方向性を提供する。
論文参考訳（メタデータ） (2024-06-26T08:57:03Z)
DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文参考訳（メタデータ） (2024-02-27T12:26:07Z)
Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [12.503002900186997]
大規模言語モデル(LLM)は、テストケースの自動生成を含むコード生成で人気を集めている。 LLMは、多くの場合、大量の公開コードでトレーニングされ、ベストプラクティスに従わないテストケースを含む。 RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-10-03T18:48:31Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。