論文の概要: SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution
- arxiv url: http://arxiv.org/abs/2501.05040v1
- Date: Thu, 09 Jan 2025 07:54:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:59:33.066709
- Title: SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution
- Title(参考訳): SWE-Fixer: 効果的で効率的なGitHubイシュー解決のためにオープンソースのLLMをトレーニングする
- Authors: Chengxing Xie, Bowen Li, Chang Gao, He Du, Wai Lam, Difan Zou, Kai Chen,
- Abstract要約: 大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するように設計された、オープンソースのLLMである。
110万のGitHubイシューと対応するパッチを含む広範なデータセットをコンパイルし、SWE-Fixerの2つのモジュールを個別にトレーニングします。
- 参考スコア(独自算出の注目度): 56.9361004704428
- License:
- Abstract: Large Language Models (LLMs) have demonstrated remarkable proficiency across a variety of complex tasks. One significant application of LLMs is in tackling software engineering challenges, particularly in resolving real-world tasks on GitHub by fixing code based on the issues reported by the users. However, many current approaches rely on proprietary LLMs, which limits reproducibility, accessibility, and transparency. The critical components of LLMs for addressing software engineering issues and how their capabilities can be effectively enhanced remain unclear. To address these challenges, we introduce SWE-Fixer, a novel open-source LLM designed to effectively and efficiently resolve GitHub issues. SWE-Fixer comprises two essential modules: a code file retrieval module and a code editing module. The retrieval module employs BM25 along with a lightweight LLM model to achieve coarse-to-fine file retrieval. Subsequently, the code editing module utilizes the other LLM model to generate patches for the identified files. Then, to mitigate the lack of publicly available datasets, we compile an extensive dataset that includes 110K GitHub issues along with their corresponding patches, and train the two modules of SWE-Fixer separately. We assess our approach on the SWE-Bench Lite and Verified benchmarks, achieving state-of-the-art performance among open-source models with scores of 23.3% and 30.2%, respectively. These outcomes highlight the efficacy of our approach. We will make our model, dataset, and code publicly available at https://github.com/InternLM/SWE-Fixer.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
LLMの重要な応用の1つは、ソフトウェアエンジニアリングの課題に取り組むことであり、特にユーザが報告した問題に基づいてコードを修正することで、GitHub上の現実世界のタスクを解決することである。
しかし、現在の多くのアプローチは、再現性、アクセシビリティ、透明性を制限するプロプライエタリなLCMに依存している。
ソフトウェアエンジニアリングの問題に対処するためのLLMの重要なコンポーネントと、その機能を効果的に拡張する方法については、いまだに不明である。
これらの課題に対処するために、GitHubの問題を効果的かつ効率的に解決するように設計された、オープンソースのLLMであるSWE-Fixerを紹介します。
SWE-Fixerは、コードファイル検索モジュールとコード編集モジュールの2つの必須モジュールから構成される。
検索モジュールはBM25と軽量LLMモデルを用いて、粗いファイル検索を実現する。
その後、コード編集モジュールは、他のLCMモデルを使用して、識別されたファイルのパッチを生成する。
そして、公開データセットの欠如を軽減するために、110万のGitHubイシューと対応するパッチを含む広範なデータセットをコンパイルし、SWE-Fixerの2つのモジュールを個別にトレーニングします。
我々はSWE-Bench LiteとVerifiedベンチマークのアプローチを評価し、23.3%と30.2%のスコアを持つオープンソースモデルで最先端のパフォーマンスを達成する。
これらの結果は我々のアプローチの有効性を浮き彫りにする。
私たちは、モデル、データセット、コードをhttps://github.com/InternLM/SWE-Fixer.comで公開します。
関連論文リスト
- Autonomous Legacy Web Application Upgrades Using a Multi-Agent System [3.456157428615978]
自動コード生成のための大規模言語モデル(LLM)が新興技術で注目を集めている。
多くの時代遅れのWebアプリケーションは、セキュリティと信頼性の課題を引き起こすが、アップグレードの複雑さとコストのために、企業はそれを使い続けている。
従来のWebアプリケーションを最新バージョンに自律的にアップグレードするLLMベースのマルチエージェントシステムを提案する。
論文 参考訳(メタデータ) (2025-01-31T15:14:14Z) - A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。
30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。
FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文 参考訳(メタデータ) (2024-11-27T03:25:44Z) - ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文 参考訳(メタデータ) (2024-08-06T18:53:54Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language
Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。
長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。
本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:35:40Z) - SWE-bench: Can Language Models Resolve Real-World GitHub Issues? [80.52201658231895]
SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、人気のあるPythonリポジトリ12ドルのプルリクエストで構成される評価フレームワークである。
我々は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題だけを解決できることを示します。
論文 参考訳(メタデータ) (2023-10-10T16:47:29Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。