論文の概要: SWE-bench: Can Language Models Resolve Real-World GitHub Issues?
- arxiv url: http://arxiv.org/abs/2310.06770v2
- Date: Fri, 5 Apr 2024 18:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 04:28:07.302117
- Title: SWE-bench: Can Language Models Resolve Real-World GitHub Issues?
- Title(参考訳): SWE-bench: 言語モデルは現実のGitHubの問題を解決することができるか?
- Authors: Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, Karthik Narasimhan,
- Abstract要約: SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、人気のあるPythonリポジトリ12ドルのプルリクエストで構成される評価フレームワークである。
我々は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題だけを解決できることを示します。
- 参考スコア(独自算出の注目度): 80.52201658231895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models have outpaced our ability to evaluate them effectively, but for their future development it is essential to study the frontier of their capabilities. We find real-world software engineering to be a rich, sustainable, and challenging testbed for evaluating the next generation of language models. To this end, we introduce SWE-bench, an evaluation framework consisting of $2,294$ software engineering problems drawn from real GitHub issues and corresponding pull requests across $12$ popular Python repositories. Given a codebase along with a description of an issue to be resolved, a language model is tasked with editing the codebase to address the issue. Resolving issues in SWE-bench frequently requires understanding and coordinating changes across multiple functions, classes, and even files simultaneously, calling for models to interact with execution environments, process extremely long contexts and perform complex reasoning that goes far beyond traditional code generation tasks. Our evaluations show that both state-of-the-art proprietary models and our fine-tuned model SWE-Llama can resolve only the simplest issues. The best-performing model, Claude 2, is able to solve a mere $1.96$% of the issues. Advances on SWE-bench represent steps towards LMs that are more practical, intelligent, and autonomous.
- Abstract(参考訳): 言語モデルは、効果的に評価する能力を上回っていますが、将来の発展のためには、その能力のフロンティアを研究することが不可欠です。
私たちは、現実世界のソフトウェアエンジニアリングが、次世代の言語モデルを評価するためのリッチで持続可能で挑戦的なテストベッドであることに気付きました。
この目的のために、SWE-benchを紹介します。SWE-benchは、実際のGitHub問題から引き出された2,294ドルのソフトウェアエンジニアリング問題と、12ドルのポピュラーなPythonレポジトリに対するプルリクエストで構成される評価フレームワークです。
解決すべき問題の説明とともにコードベースが与えられると、言語モデルはコードベースを編集して問題に対処する。
SWE-benchの問題を解決するには、複数の関数、クラス、ファイルの同時変更の理解と調整、実行環境とのインタラクションのためのモデル呼び出し、非常に長いコンテキストの処理、従来のコード生成タスクを超えて複雑な推論を実行する必要がある。
我々の評価は、最先端のプロプライエタリモデルと微調整モデルSWE-Llamaの両方が、最も単純な問題のみを解決可能であることを示している。
最高のパフォーマンスモデルであるClaude 2は、たった1.96$%の問題を解決することができる。
SWEベンチの進歩は、より実用的でインテリジェントで自律的なLMに向けたステップを表している。
関連論文リスト
- AutoCodeRover: Autonomous Program Improvement [8.66280420062806]
プログラムの改善を自律的に達成するために、GitHubの問題を解決する自動化アプローチを提案する。
AutoCodeRoverと呼ばれるアプローチでは、LLMは洗練されたコード検索機能と組み合わせられ、最終的にプログラムの変更やパッチにつながります。
300のGitHubイシューからなるSWE-bench-liteの実験は、GitHubイシューの解決における有効性の向上を示している。
論文 参考訳(メタデータ) (2024-04-08T11:55:09Z) - Code-Switched Language Identification is Harder Than You Think [69.63439391717691]
コードスイッチングは、文字と音声の通信において一般的な現象である。
CSコーパスの構築の応用について検討する。
タスクをもっと多くの言語に拡張することで、タスクをより現実的にします。
文レベルのマルチラベルタグ付け問題としてタスクを再構築し、より難易度の高いものにする。
論文 参考訳(メタデータ) (2024-02-02T15:38:47Z) - MoTCoder: Elevating Large Language Models with Modular of Thought for
Challenging Programming Tasks [60.54009036297301]
本稿では,タスクの論理的サブタスクとサブモジュールへの分解を促進するため,MoT命令チューニングの先駆的フレームワークを提案する。
調査の結果,MoTCoderはサブモジュールの栽培と利用を通じて,生成したソリューションのモジュラリティと正しさの両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-12-26T08:49:57Z) - DexBERT: Effective, Task-Agnostic and Fine-grained Representation
Learning of Android Bytecode [0.40571357119162643]
そこで本研究では,Android アプリケーションで使用される主要なバイナリフォーマットである DEX バイトコードのチャンクを表現するために,BERT ライクな言語モデルを提案する。
DexBERTがDEX言語をモデル化できるかどうかを実証的に評価し、3つのクラスレベルのソフトウェアエンジニアリングタスクでモデルの有効性を評価する。
論文 参考訳(メタデータ) (2022-12-12T15:32:31Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - Beyond the Imitation Game: Quantifying and extrapolating the
capabilities of language models [648.3665819567409]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。
ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。
我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文 参考訳(メタデータ) (2022-06-09T17:05:34Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。