Fugu-MT 論文翻訳(概要): SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

論文の概要: SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

arxiv url: http://arxiv.org/abs/2310.06770v2
Date: Fri, 5 Apr 2024 18:16:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 04:28:07.302117
Title: SWE-bench: Can Language Models Resolve Real-World GitHub Issues?
Title（参考訳）: SWE-bench: 言語モデルは現実のGitHubの問題を解決することができるか?
Authors: Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, Karthik Narasimhan,
Abstract要約: SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、人気のあるPythonリポジトリ12ドルのプルリクエストで構成される評価フレームワークである。我々は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題だけを解決できることを示します。
参考スコア（独自算出の注目度）: 80.52201658231895
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models have outpaced our ability to evaluate them effectively, but for their future development it is essential to study the frontier of their capabilities. We find real-world software engineering to be a rich, sustainable, and challenging testbed for evaluating the next generation of language models. To this end, we introduce SWE-bench, an evaluation framework consisting of $2,294$ software engineering problems drawn from real GitHub issues and corresponding pull requests across $12$ popular Python repositories. Given a codebase along with a description of an issue to be resolved, a language model is tasked with editing the codebase to address the issue. Resolving issues in SWE-bench frequently requires understanding and coordinating changes across multiple functions, classes, and even files simultaneously, calling for models to interact with execution environments, process extremely long contexts and perform complex reasoning that goes far beyond traditional code generation tasks. Our evaluations show that both state-of-the-art proprietary models and our fine-tuned model SWE-Llama can resolve only the simplest issues. The best-performing model, Claude 2, is able to solve a mere $1.96$% of the issues. Advances on SWE-bench represent steps towards LMs that are more practical, intelligent, and autonomous.
Abstract（参考訳）: 言語モデルは、効果的に評価する能力を上回っていますが、将来の発展のためには、その能力のフロンティアを研究することが不可欠です。私たちは、現実世界のソフトウェアエンジニアリングが、次世代の言語モデルを評価するためのリッチで持続可能で挑戦的なテストベッドであることに気付きました。この目的のために、SWE-benchを紹介します。SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、12ドルのポピュラーなPythonレポジトリに対するプルリクエストで構成される評価フレームワークです。解決すべき問題の説明とともにコードベースが与えられると、言語モデルはコードベースを編集して問題に対処する。 SWE-benchの問題を解決するには、複数の関数、クラス、ファイルの同時変更の理解と調整、実行環境とのインタラクションのためのモデル呼び出し、非常に長いコンテキストの処理、従来のコード生成タスクを超えて複雑な推論を実行する必要がある。我々の評価は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題のみを解決可能であることを示している。最高のパフォーマンスモデルであるClaude 2は、たった1.96$%の問題を解決することができる。 SWEベンチの進歩は、より実用的でインテリジェントで自律的なLMに向けたステップを表している。

関連論文リスト

CodeAssistBench (CAB): Dataset & Benchmarking for Multi-turn Chat-Based Code Assistance [18.886738819470086]
我々は,マルチターンプログラミング支援を評価するための最初のベンチマークフレームワークであるCodeAssistBench (CAB)を紹介した。既存のプログラミングQ&Aベンチマークとは異なり、CABは質問に関連するGitHubの問題からスケーラブルなデータセットを自動的に生成する。このフレームワークを用いて,231リポジトリにわたる3,286の現実世界のプログラミング質問をテストセットとして構築した。
論文参考訳（メタデータ） (2025-07-14T17:19:00Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
SWE-PolyBench: A multi-language benchmark for repository level evaluation of coding agents [49.73885480071402]
我々はSWE-PolyBenchを紹介した。SWE-PolyBenchは、コードエージェントのリポジトリレベル、実行ベース評価のための新しいベンチマークである。 SWE-PolyBenchには21のリポジトリから2110のインスタンスが含まれており、Java(165)、JavaScript(1017)、TypeScript(729)、Python(199)のタスクが含まれており、バグ修正、機能追加、コードを含んでいる。実験の結果,現在のエージェントは言語間で不均一なパフォーマンスを示し,複雑な問題に対処しつつ,単純なタスクで高いパフォーマンスを示すことがわかった。
論文参考訳（メタデータ） (2025-04-11T17:08:02Z)
Unveiling Pitfalls: Understanding Why AI-driven Code Agents Fail at GitHub Issue Resolution [22.03052751722933]
問題解決フェーズにおけるPythonの実行エラーは、低解像度率と推論オーバーヘッドの増加と相関している。私たちは、ModuleNotFoundErrorやTypeErrorのような最も一般的なエラーを特定し、OSErrorやデータベース関連の問題のような特に困難なエラーを強調しました。
論文参考訳（メタデータ） (2025-03-16T06:24:51Z)
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の最先端性能を実現する。
論文参考訳（メタデータ） (2025-01-09T07:54:24Z)
Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文参考訳（メタデータ） (2024-10-16T11:33:57Z)
SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains? [64.34184587727334]
視覚的ユーザ向けJavaScriptソフトウェアにおけるバグ修正機能に基づいて,システム評価を行うSWE-bench Multimodalを提案する。 SWE-bench Mは、Webインターフェース設計、ダイアグラム、データ視覚化、シンタックスハイライト、インタラクティブマッピングに使用される17のJavaScriptライブラリから収集された617のタスクインスタンスを特徴とする。分析の結果,SWE-benchシステムはSWE-bench Mと競合し,視覚的問題解決や言語間の一般化に限界があることが判明した。
論文参考訳（メタデータ） (2024-10-04T18:48:58Z)
SWE-bench-java: A GitHub Issue Resolving Benchmark for Java [27.226354754864783]
大規模言語モデル(LLM)の問題解決能力を評価するため、SWE-benchがリリースされた。マルチ言語サポートへの第一歩として、SWE-bench-javaと呼ばれるSWE-benchのJavaバージョンを開発しました。 SWE-bench-javaの信頼性を検証するために、従来のSWE-agentを実装し、その上で複数の強力なLCMをテストする。
論文参考訳（メタデータ） (2024-08-26T15:30:05Z)
Code-Switched Language Identification is Harder Than You Think [69.63439391717691]
コードスイッチングは、文字と音声の通信において一般的な現象である。 CSコーパスの構築の応用について検討する。タスクをもっと多くの言語に拡張することで、タスクをより現実的にします。文レベルのマルチラベルタグ付け問題としてタスクを再構築し、より難易度の高いものにする。
論文参考訳（メタデータ） (2024-02-02T15:38:47Z)
MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks [50.61968901704187]
本稿では,タスクの論理的サブタスクとサブモジュールへの分解を促進するため,MoT命令チューニングの先駆的フレームワークを提案する。調査の結果,MoTCoderはサブモジュールの栽培と利用を通じて,生成したソリューションのモジュラリティと正しさの両方を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-12-26T08:49:57Z)
BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文参考訳（メタデータ） (2022-07-21T20:17:53Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。