論文の概要: SWE-bench: Can Language Models Resolve Real-World GitHub Issues?
- arxiv url: http://arxiv.org/abs/2310.06770v3
- Date: Mon, 11 Nov 2024 23:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:19:39.132823
- Title: SWE-bench: Can Language Models Resolve Real-World GitHub Issues?
- Title(参考訳): SWE-bench: 言語モデルは現実のGitHubの問題を解決することができるか?
- Authors: Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, Karthik Narasimhan,
- Abstract要約: SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、人気のあるPythonリポジトリ12ドルのプルリクエストで構成される評価フレームワークである。
我々は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題だけを解決できることを示します。
- 参考スコア(独自算出の注目度): 80.52201658231895
- License:
- Abstract: Language models have outpaced our ability to evaluate them effectively, but for their future development it is essential to study the frontier of their capabilities. We find real-world software engineering to be a rich, sustainable, and challenging testbed for evaluating the next generation of language models. To this end, we introduce SWE-bench, an evaluation framework consisting of $2,294$ software engineering problems drawn from real GitHub issues and corresponding pull requests across $12$ popular Python repositories. Given a codebase along with a description of an issue to be resolved, a language model is tasked with editing the codebase to address the issue. Resolving issues in SWE-bench frequently requires understanding and coordinating changes across multiple functions, classes, and even files simultaneously, calling for models to interact with execution environments, process extremely long contexts and perform complex reasoning that goes far beyond traditional code generation tasks. Our evaluations show that both state-of-the-art proprietary models and our fine-tuned model SWE-Llama can resolve only the simplest issues. The best-performing model, Claude 2, is able to solve a mere $1.96$% of the issues. Advances on SWE-bench represent steps towards LMs that are more practical, intelligent, and autonomous.
- Abstract(参考訳): 言語モデルは、効果的に評価する能力を上回っていますが、将来の発展のためには、その能力のフロンティアを研究することが不可欠です。
私たちは、現実世界のソフトウェアエンジニアリングが、次世代の言語モデルを評価するためのリッチで持続可能で挑戦的なテストベッドであることに気付きました。
この目的のために、SWE-benchを紹介します。SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、12ドルのポピュラーなPythonレポジトリに対するプルリクエストで構成される評価フレームワークです。
解決すべき問題の説明とともにコードベースが与えられると、言語モデルはコードベースを編集して問題に対処する。
SWE-benchの問題を解決するには、複数の関数、クラス、ファイルの同時変更の理解と調整、実行環境とのインタラクションのためのモデル呼び出し、非常に長いコンテキストの処理、従来のコード生成タスクを超えて複雑な推論を実行する必要がある。
我々の評価は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題のみを解決可能であることを示している。
最高のパフォーマンスモデルであるClaude 2は、たった1.96$%の問題を解決することができる。
SWEベンチの進歩は、より実用的でインテリジェントで自律的なLMに向けたステップを表している。
関連論文リスト
- Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。
一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。
ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。
一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文 参考訳(メタデータ) (2024-10-16T11:33:57Z) - SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains? [64.34184587727334]
視覚的ユーザ向けJavaScriptソフトウェアにおけるバグ修正機能に基づいて,システム評価を行うSWE-bench Multimodalを提案する。
SWE-bench Mは、Webインターフェース設計、ダイアグラム、データ視覚化、シンタックスハイライト、インタラクティブマッピングに使用される17のJavaScriptライブラリから収集された617のタスクインスタンスを特徴とする。
分析の結果,SWE-benchシステムはSWE-bench Mと競合し,視覚的問題解決や言語間の一般化に限界があることが判明した。
論文 参考訳(メタデータ) (2024-10-04T18:48:58Z) - SWE-bench-java: A GitHub Issue Resolving Benchmark for Java [27.226354754864783]
大規模言語モデル(LLM)の問題解決能力を評価するため、SWE-benchがリリースされた。
マルチ言語サポートへの第一歩として、SWE-bench-javaと呼ばれるSWE-benchのJavaバージョンを開発しました。
SWE-bench-javaの信頼性を検証するために、従来のSWE-agentを実装し、その上で複数の強力なLCMをテストする。
論文 参考訳(メタデータ) (2024-08-26T15:30:05Z) - Code-Switched Language Identification is Harder Than You Think [69.63439391717691]
コードスイッチングは、文字と音声の通信において一般的な現象である。
CSコーパスの構築の応用について検討する。
タスクをもっと多くの言語に拡張することで、タスクをより現実的にします。
文レベルのマルチラベルタグ付け問題としてタスクを再構築し、より難易度の高いものにする。
論文 参考訳(メタデータ) (2024-02-02T15:38:47Z) - MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks [50.61968901704187]
本稿では,タスクの論理的サブタスクとサブモジュールへの分解を促進するため,MoT命令チューニングの先駆的フレームワークを提案する。
調査の結果,MoTCoderはサブモジュールの栽培と利用を通じて,生成したソリューションのモジュラリティと正しさの両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-26T08:49:57Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。