論文の概要: A Benchmark for Localizing Code and Non-Code Issues in Software Projects
- arxiv url: http://arxiv.org/abs/2509.25242v1
- Date: Fri, 26 Sep 2025 06:05:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.195183
- Title: A Benchmark for Localizing Code and Non-Code Issues in Software Projects
- Title(参考訳): ソフトウェアプロジェクトにおけるコードと非コードのローカライズのためのベンチマーク
- Authors: Zejun Zhang, Jian Wang, Qingyun Yang, Yifan Pan, Yi Tang, Yi Li, Zhenchang Xing, Tian Zhang, Xuandong Li, Guoan Zhang,
- Abstract要約: 46の人気のあるGitHub Pythonプロジェクトから1,100のイシューのデータセットであるMULocBenchを紹介します。
既存のベンチマークと比較すると、MULocBenchはイシュータイプ、根本原因、ロケーションスコープ、ファイルタイプに大きな多様性を提供する。
このベンチマークを用いて、最先端のローカライズ手法と5つのLCMベースのプロンプト戦略の性能を評価する。
- 参考スコア(独自算出の注目度): 26.511673758202267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate project localization (e.g., files and functions) for issue resolution is a critical first step in software maintenance. However, existing benchmarks for issue localization, such as SWE-Bench and LocBench, are limited. They focus predominantly on pull-request issues and code locations, ignoring other evidence and non-code files such as commits, comments, configurations, and documentation. To address this gap, we introduce MULocBench, a comprehensive dataset of 1,100 issues from 46 popular GitHub Python projects. Comparing with existing benchmarks, MULocBench offers greater diversity in issue types, root causes, location scopes, and file types, providing a more realistic testbed for evaluation. Using this benchmark, we assess the performance of state-of-the-art localization methods and five LLM-based prompting strategies. Our results reveal significant limitations in current techniques: even at the file level, performance metrics (Acc@5, F1) remain below 40%. This underscores the challenge of generalizing to realistic, multi-faceted issue resolution. To enable future research on project localization for issue resolution, we publicly release MULocBench at https://huggingface.co/datasets/somethingone/MULocBench.
- Abstract(参考訳): 問題解決のための正確なプロジェクトローカライゼーション(ファイルや関数など)は、ソフトウェアのメンテナンスにおける重要な第一歩です。
しかし、SWE-Bench や LocBench のような問題ローカライゼーションのための既存のベンチマークは限られている。
主にプルリクエスト問題やコードロケーションに注目し、他のエビデンスやコミット、コメント、設定、ドキュメントなどの非コードファイルを無視している。
このギャップに対処するために、46の人気のあるGitHub Pythonプロジェクトから1,100のイシューの包括的なデータセットであるMULocBenchを紹介します。
既存のベンチマークと比較すると、MULocBenchはイシュータイプ、根本原因、ロケーションスコープ、ファイルタイプに多様性を提供し、評価のためのより現実的なテストベッドを提供する。
このベンチマークを用いて、最先端のローカライズ手法と5つのLCMベースのプロンプト戦略の性能を評価する。
ファイルレベルにおいても、パフォーマンス指標(Acc@5, F1)は40%以下です。
これは、現実的で多面的な課題解決への一般化という課題を浮き彫りにしている。
課題解決のためのプロジェクトのローカライズに関する将来の研究を可能にするため、MULocBenchをhttps://huggingface.co/datasets/somethingone/MULocBenchで公開しています。
関連論文リスト
- The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason [1.6249398255272318]
本稿では,SWE-Bench-Verifiedの性能向上は,真の問題解決よりも記憶によってもたらされる可能性があることを示す。
現状のモデルでは,リポジトリ構造にアクセスすることなく,問題記述のみを用いて,バグのあるファイルパスを識別する精度を最大76%向上することを示す。
これらの結果は、既存の結果の有効性に関する懸念を提起し、より堅牢で汚染に強いベンチマークの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-14T00:25:26Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。
パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。
SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-07T19:44:09Z) - Information Density Principle for MLLM Benchmarks [59.88484827926759]
本稿では,MLLMの開発において,ベンチマークがどの程度の洞察を得られるかを検討する情報密度の原理を提案する。
1万以上のサンプルの包括的分析により,19個のMLLMベンチマークの情報密度を測定した。
実験によると、テストで最新のベンチマークを使用すると、以前のベンチマークよりも多くの洞察が得られるが、情報密度を改善する余地はまだ残っている。
論文 参考訳(メタデータ) (2025-03-13T05:58:41Z) - Integrating Various Software Artifacts for Better LLM-based Bug Localization and Program Repair [3.617293786745078]
本稿では,問題コンテンツ(記述とメッセージ)とスタックエラートレースを用いてバグギーメソッドをローカライズするDevLoReを提案する。
異なるアーティファクトを組み込むことで、DevLoReはシングルとノンシングルのバグギーメソッドの49.3%と47.6%をうまく見つけることができた。
これは現在の最先端のAPRメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-12-05T06:21:31Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。
これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。
各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文 参考訳(メタデータ) (2024-06-17T14:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。