Fugu-MT 論文翻訳(概要): SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution

論文の概要: SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution

arxiv url: http://arxiv.org/abs/2501.05040v1
Date: Thu, 09 Jan 2025 07:54:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-10 17:34:41.432325
Title: SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution
Title（参考訳）: SWE-Fixer: 効果的で効率的なGitHubイシュー解決のためにオープンソースのLLMをトレーニングする
Authors: Chengxing Xie, Bowen Li, Chang Gao, He Du, Wai Lam, Difan Zou, Kai Chen,
Abstract要約: 大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するように設計された、オープンソースのLLMである。 110万のGitHubイシューと対応するパッチを含む広範なデータセットをコンパイルし、SWE-Fixerの2つのモジュールを個別にトレーニングします。
参考スコア（独自算出の注目度）: 56.9361004704428
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have demonstrated remarkable proficiency across a variety of complex tasks. One significant application of LLMs is in tackling software engineering challenges, particularly in resolving real-world tasks on GitHub by fixing code based on the issues reported by the users. However, many current approaches rely on proprietary LLMs, which limits reproducibility, accessibility, and transparency. The critical components of LLMs for addressing software engineering issues and how their capabilities can be effectively enhanced remain unclear. To address these challenges, we introduce SWE-Fixer, a novel open-source LLM designed to effectively and efficiently resolve GitHub issues. SWE-Fixer comprises two essential modules: a code file retrieval module and a code editing module. The retrieval module employs BM25 along with a lightweight LLM model to achieve coarse-to-fine file retrieval. Subsequently, the code editing module utilizes the other LLM model to generate patches for the identified files. Then, to mitigate the lack of publicly available datasets, we compile an extensive dataset that includes 110K GitHub issues along with their corresponding patches, and train the two modules of SWE-Fixer separately. We assess our approach on the SWE-Bench Lite and Verified benchmarks, achieving state-of-the-art performance among open-source models with scores of 23.3% and 30.2%, respectively. These outcomes highlight the efficacy of our approach. We will make our model, dataset, and code publicly available at https://github.com/InternLM/SWE-Fixer.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 LLMの重要な応用の1つは、ソフトウェアエンジニアリングの課題に取り組むことであり、特にユーザが報告した問題に基づいてコードを修正することで、GitHub上の現実世界のタスクを解決することである。しかし、現在の多くのアプローチは、再現性、アクセシビリティ、透明性を制限するプロプライエタリなLCMに依存している。ソフトウェアエンジニアリングの問題に対処するためのLLMの重要なコンポーネントと、その機能を効果的に拡張する方法については、いまだに不明である。これらの課題に対処するために、GitHubの問題を効果的かつ効率的に解決するように設計された、オープンソースのLLMであるSWE-Fixerを紹介します。 SWE-Fixerは、コードファイル検索モジュールとコード編集モジュールの2つの必須モジュールから構成される。検索モジュールはBM25と軽量LLMモデルを用いて、粗いファイル検索を実現する。その後、コード編集モジュールは、他のLCMモデルを使用して、識別されたファイルのパッチを生成する。そして、公開データセットの欠如を軽減するために、110万のGitHubイシューと対応するパッチを含む広範なデータセットをコンパイルし、SWE-Fixerの2つのモジュールを個別にトレーニングします。我々はSWE-Bench LiteとVerifiedベンチマークのアプローチを評価し、23.3%と30.2%のスコアを持つオープンソースモデルで最先端のパフォーマンスを達成する。これらの結果は我々のアプローチの有効性を浮き彫りにする。私たちは、モデル、データセット、コードをhttps://github.com/InternLM/SWE-Fixer.comで公開します。

関連論文リスト

The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason [1.6249398255272318]
本稿では,SWE-Bench-Verifiedの性能向上は,真の問題解決よりも記憶によってもたらされる可能性があることを示す。現状のモデルでは,リポジトリ構造にアクセスすることなく,問題記述のみを用いて,バグのあるファイルパスを識別する精度を最大76%向上することを示す。これらの結果は、既存の結果の有効性に関する懸念を提起し、より堅牢で汚染に強いベンチマークの必要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-14T00:25:26Z)
LAMARL: LLM-Aided Multi-Agent Reinforcement Learning for Cooperative Policy Generation [12.098817831819078]
大規模言語モデル (LLM) は単一ロボット設定で将来性を示すが、マルチロボットシステムにおけるそれらの応用はいまだほとんど探索されていない。本稿では, LLMとMARLを統合し, 手動設計を必要とせずに試料効率を大幅に向上する新しいLAMARL手法を提案する。
論文参考訳（メタデータ） (2025-06-02T10:59:54Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
Code Graph Model (CGM): A Graph-Integrated Large Language Model for Repository-Level Software Engineering Tasks [42.79558714652442]
大きな言語モデル(LLM)は関数レベルのコード生成を約束しているが、リポジトリレベルのソフトウェアエンジニアリングタスクは依然として難しい。本稿では,オープンソース LLM がエージェントベースアプローチを必要とせずに,リポジトリレベルのタスクを効果的に処理できるかどうかを検討する。リポジトリコードグラフ構造をLLMのアテンション機構に統合するコードグラフモデル(CGM)を導入する。
論文参考訳（メタデータ） (2025-05-22T17:00:55Z)
SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。 SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文参考訳（メタデータ） (2025-05-07T19:44:09Z)
Autonomous Legacy Web Application Upgrades Using a Multi-Agent System [3.456157428615978]
自動コード生成のための大規模言語モデル(LLM)が新興技術で注目を集めている。多くの時代遅れのWebアプリケーションは、セキュリティと信頼性の課題を引き起こすが、アップグレードの複雑さとコストのために、企業はそれを使い続けている。従来のWebアプリケーションを最新バージョンに自律的にアップグレードするLLMベースのマルチエージェントシステムを提案する。
論文参考訳（メタデータ） (2025-01-31T15:14:14Z)
A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。 30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。 FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文参考訳（メタデータ） (2024-11-27T03:25:44Z)
ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文参考訳（メタデータ） (2024-08-06T18:53:54Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文参考訳（メタデータ） (2024-02-19T18:35:40Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
SWE-bench: Can Language Models Resolve Real-World GitHub Issues? [80.52201658231895]
SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、人気のあるPythonリポジトリ12ドルのプルリクエストで構成される評価フレームワークである。我々は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題だけを解決できることを示します。
論文参考訳（メタデータ） (2023-10-10T16:47:29Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。