論文の概要: Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement
- arxiv url: http://arxiv.org/abs/2411.00622v1
- Date: Fri, 01 Nov 2024 14:27:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:50:58.809768
- Title: Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement
- Title(参考訳): Lingma SWE-GPT: 自動ソフトウェア改善のためのオープンな開発プロセス中心言語モデル
- Authors: Yingwei Ma, Rongyu Cao, Yongchang Cao, Yue Zhang, Jue Chen, Yibo Liu, Yuchen Liu, Binhua Li, Fei Huang, Yongbin Li,
- Abstract要約: Lingma SWE-GPTシリーズは、現実世界のコード提出活動から学び、シミュレーションする。
Lingma SWE-GPT 72BはGitHubの30.20%の問題を解決する。
- 参考スコア(独自算出の注目度): 62.94719119451089
- License:
- Abstract: Recent advancements in LLM-based agents have led to significant progress in automatic software engineering, particularly in software maintenance and evolution. Despite these encouraging advances, current research faces two major challenges. First, SOTA performance primarily depends on closed-source models, which significantly limits the technology's accessibility, and potential for customization in diverse SE tasks. Second, these models are predominantly trained on static code data, lacking a deep understanding of the dynamic interactions, iterative problem-solving processes, and evolutionary characteristics inherent in software development. To address these challenges, our study adopts a software engineering perspective. We recognize that real-world software maintenance and evolution processes encompass not only static code data but also developers' thought processes, utilization of external tools, and the interaction between different functional personnel. Consequently, we introduce the Lingma SWE-GPT series, comprising Lingma SWE-GPT 7B and 72B. By learning from and simulating real-world code submission activities, Lingma SWE-GPT systematically incorporates the dynamic interactions and iterative problem-solving inherent in software development process, thereby achieving a more comprehensive understanding of software improvement processes. We conducted experimental evaluations using SWE-bench Verified benchmark. The results demonstrate that Lingma SWE-GPT 72B successfully resolves 30.20% of the GitHub issues, marking a significant improvement in automatic issue resolution (22.76% relative improvement compared to Llama 3.1 405B), approaching the performance of closed-source models (31.80\% issues of GPT-4o resolved). Notably, Lingma SWE-GPT 7B resolves 18.20% of the issues, highlighting the potential for applying smaller models to ASE tasks.
- Abstract(参考訳): LLMベースのエージェントの最近の進歩は、特にソフトウェア保守と進化において、自動ソフトウェア工学において顕著な進歩をもたらした。
これらの進歩にもかかわらず、現在の研究は2つの大きな課題に直面している。
第一に、SOTAのパフォーマンスは、技術アクセシビリティを著しく制限するクローズドソースモデルと、多種多様なSEタスクのカスタマイズの可能性に依存する。
第二に、これらのモデルは静的コードデータに基づいて主に訓練されており、動的相互作用、反復的な問題解決プロセス、そしてソフトウェア開発に固有の進化的特性の深い理解を欠いている。
これらの課題に対処するために、我々の研究はソフトウェア工学の観点を採用する。
実際のソフトウェア保守と進化プロセスは、静的コードデータだけでなく、開発者の思考プロセス、外部ツールの利用、さまざまな機能担当者間の相互作用も含んでいることを認識しています。
その結果,Lingma SWE-GPT 7Bと72BからなるLingma SWE-GPTシリーズが導入された。
Lingma SWE-GPTは、現実世界のコード提出活動から学び、シミュレーションすることで、ソフトウェア開発プロセスに固有の動的相互作用と反復的な問題解決を体系的に取り入れることで、ソフトウェア改善プロセスのより包括的な理解を実現する。
SWE-bench Verifiedベンチマークを用いて実験を行った。
結果は、Lingma SWE-GPT 72BがGitHubの30.20%の問題を解決することに成功し、自動イシュー解決の大幅な改善(Llama 3.1 405Bと比較して22.76%改善)、クローズドソースモデルのパフォーマンス(GPT-4oの31.80\%問題が解決した)に近づいていることを示している。
特に、Lingma SWE-GPT 7Bは18.20%の問題を解決し、ASEタスクに小さなモデルを適用する可能性を強調している。
関連論文リスト
- SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement [18.84439000902905]
SWE-Searchは、MCTS(Monte Carlo Tree Search)と自己改善機構を統合し、ソフトウェアエージェントのパフォーマンスを向上させるマルチエージェントフレームワークである。
本研究は,複雑でダイナミックなソフトウェア工学環境において,エージェント推論と計画を強化する自己評価型検索技術の可能性を強調した。
論文 参考訳(メタデータ) (2024-10-26T22:45:56Z) - Think-on-Process: Dynamic Process Generation for Collaborative Development of Multi-Agent System [13.65717444483291]
ToP (Think-on-Process) はソフトウェア開発のための動的プロセス生成フレームワークである。
本フレームワークはGPT-3.5とGPT-4の動的プロセス生成能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-09-10T15:02:34Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - Developers' Perceptions on the Impact of ChatGPT in Software Development: A Survey [13.257222195239375]
ソフトウェアの品質、生産性、仕事満足度に対するChatGPTの影響を理解するため、207人のソフトウェア開発者と調査を行った。
この研究は、ChatGPTの今後の適応に関する開発者の期待、潜在的な仕事の移転に関する懸念、規制介入の視点について詳しく述べている。
論文 参考訳(メタデータ) (2024-05-20T17:31:16Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - Machine Learning Application Development: Practitioners' Insights [18.114724750441724]
MLアプリケーション開発の課題とベストプラクティスを理解することを目的とした調査について報告する。
80人の実践者から得られた結果を17の発見にまとめ、MLアプリケーション開発の課題とベストプラクティスを概説する。
報告された課題が、MLベースのアプリケーションのエンジニアリングプロセスと品質を改善するために調査すべきトピックについて、研究コミュニティに知らせてくれることを期待しています。
論文 参考訳(メタデータ) (2021-12-31T03:38:37Z) - Data-Driven and SE-assisted AI Model Signal-Awareness Enhancement and
Introspection [61.571331422347875]
モデルの信号認識性を高めるためのデータ駆動型手法を提案する。
コード複雑性のSE概念とカリキュラム学習のAIテクニックを組み合わせる。
モデル信号認識における最大4.8倍の改善を実現している。
論文 参考訳(メタデータ) (2021-11-10T17:58:18Z) - Technology Readiness Levels for AI & ML [79.22051549519989]
機械学習システムの開発は、現代的なツールで容易に実行できるが、プロセスは通常急いで、エンドツーエンドで実行される。
エンジニアリングシステムは、高品質で信頼性の高い結果の開発を効率化するために、明確に定義されたプロセスとテスト標準に従います。
我々は、機械学習の開発と展開のための実証されたシステムエンジニアリングアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-21T17:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。