論文の概要: Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving
- arxiv url: http://arxiv.org/abs/2504.02605v1
- Date: Thu, 03 Apr 2025 14:06:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:58:41.158255
- Title: Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving
- Title(参考訳): Multi-SWE-bench:問題解決のための多言語ベンチマーク
- Authors: Daoguang Zan, Zhirong Huang, Wei Liu, Hanwu Chen, Linhao Zhang, Shulin Xin, Lu Chen, Qi Liu, Xiaojian Zhong, Aoyan Li, Siyao Liu, Yongsheng Xiao, Liangqiang Chen, Yuyu Zhang, Jing Su, Tianyu Liu, Rui Long, Kai Shen, Liang Xiang,
- Abstract要約: Java、TypeScript、JavaScript、Go、Rust、C、C++をカバーするマルチ言語問題解決ベンチマークであるMulti-SWE-benchを紹介します。
これには合計1,632の高品質なインスタンスが含まれており、68のエキスパートアノテータによって2,456の候補から慎重にアノテートされた。
3つの代表的手法を用いて,Multi-SWE-benchに基づく一連の最先端モデルの評価を行った。
大規模強化学習(RL)トレーニングデータセットの構築を目的とした,オープンソースコミュニティのMulti-SWE-RLを立ち上げた。
- 参考スコア(独自算出の注目度): 25.97486916095315
- License:
- Abstract: The task of issue resolving is to modify a codebase to generate a patch that addresses a given issue. However, existing benchmarks, such as SWE-bench, focus almost exclusively on Python, making them insufficient for evaluating Large Language Models (LLMs) across diverse software ecosystems. To address this, we introduce a multilingual issue-resolving benchmark, called Multi-SWE-bench, covering Java, TypeScript, JavaScript, Go, Rust, C, and C++. It includes a total of 1,632 high-quality instances, which were carefully annotated from 2,456 candidates by 68 expert annotators, ensuring that the benchmark can provide an accurate and reliable evaluation. Based on Multi-SWE-bench, we evaluate a series of state-of-the-art models using three representative methods (Agentless, SWE-agent, and OpenHands) and present a comprehensive analysis with key empirical insights. In addition, we launch a Multi-SWE-RL open-source community, aimed at building large-scale reinforcement learning (RL) training datasets for issue-resolving tasks. As an initial contribution, we release a set of 4,723 well-structured instances spanning seven programming languages, laying a solid foundation for RL research in this domain. More importantly, we open-source our entire data production pipeline, along with detailed tutorials, encouraging the open-source community to continuously contribute and expand the dataset. We envision our Multi-SWE-bench and the ever-growing Multi-SWE-RL community as catalysts for advancing RL toward its full potential, bringing us one step closer to the dawn of AGI.
- Abstract(参考訳): 問題解決のタスクは、コードベースを変更して、与えられた問題に対処するパッチを生成することです。
しかし、SWE-benchのような既存のベンチマークはPythonにのみフォーカスしており、様々なソフトウェアエコシステムにわたる大規模言語モデル(LLM)を評価するには不十分である。
これを解決するために、Java、TypeScript、JavaScript、Go、Rust、C、C++をカバーするMulti-SWE-benchと呼ばれるマルチ言語問題解決ベンチマークを導入しました。
これには合計1,632の高品質なインスタンスが含まれており、68のエキスパートアノテータによって2,456の候補から慎重にアノテートされ、ベンチマークが正確で信頼性の高い評価を提供する。
我々は,Multi-SWE-benchに基づいて,3つの代表的な手法(Agentless,SWE-agent,OpenHands)を用いて,一連の最先端モデルを評価し,重要な経験的洞察を伴う包括的分析を行う。
さらに,課題解決タスクのための大規模強化学習(RL)トレーニングデータセットの構築を目的とした,Multi-SWE-RLオープンソースコミュニティをローンチした。
最初のコントリビューションとして、7つのプログラミング言語にまたがる4,723のよく構造化されたインスタンスをリリースし、この領域におけるRL研究の確固たる基盤を構築しました。
さらに重要なのは、詳細なチュートリアルとともに、データ生産パイプライン全体をオープンソースにすることで、オープンソースコミュニティがデータセットを継続的にコントリビュートし、拡張することを奨励しています。
我々は、我々のMulti-SWE-benchと成長を続けるMulti-SWE-RLコミュニティを、RLを最大限のポテンシャルに進めるための触媒として想定し、AGIの夜明けに一歩近づいた。
関連論文リスト
- ExecRepoBench: Multi-level Executable Code Completion Evaluation [45.963424627710765]
本稿では,リポジトリレベルのベンチマークであるExecRepoBenchの作成を通じて,ソフトウェア開発におけるコード補完を強化する新しいフレームワークを紹介する。
本稿では,抽象構文木をベースとした多段階文法ベースの補完手法を提案し,様々な論理単位のコードフラグメントをマスキングする。
次に,Repo-Instruct の 7B パラメータでオープンソースの LLM を微調整し,強力なコード補完ベースラインモデル Qwen2.5-Coder-Instruct-C を生成する。
論文 参考訳(メタデータ) (2024-12-16T17:14:35Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - In-Context Code-Text Learning for Bimodal Software Engineering [26.0027882745058]
バイモーダルなソフトウェア分析は、大きな言語モデルの出現とともに、当初は手の届くところにあるように見えた。
コードテキストのバイモーダル性に対するコンテキスト内学習は有望な道であると仮定する。
我々は、23のソフトウェアエンジニアリングタスクを含む多様なデータセットを考察し、コンテキスト内学習フォーマットで変換する。
論文 参考訳(メタデータ) (2024-10-08T19:42:00Z) - SWE-bench-java: A GitHub Issue Resolving Benchmark for Java [27.226354754864783]
大規模言語モデル(LLM)の問題解決能力を評価するため、SWE-benchがリリースされた。
マルチ言語サポートへの第一歩として、SWE-bench-javaと呼ばれるSWE-benchのJavaバージョンを開発しました。
SWE-bench-javaの信頼性を検証するために、従来のSWE-agentを実装し、その上で複数の強力なLCMをテストする。
論文 参考訳(メタデータ) (2024-08-26T15:30:05Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。