論文の概要: Gotta catch 'em all! Towards File Localisation from Issues at Large
- arxiv url: http://arxiv.org/abs/2507.18319v1
- Date: Thu, 24 Jul 2025 11:42:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.524888
- Title: Gotta catch 'em all! Towards File Localisation from Issues at Large
- Title(参考訳): Gottaが全員をキャッチ! 大規模な問題からファイルのローカライゼーションを目指す
- Authors: Jesse Maarleveld, Jiapan Guo, Daniel Feitosa,
- Abstract要約: この作業は、イシューファイルローカライゼーションデータセットを作成するためのデータパイプラインを提供する。
従来の情報検索手法を用いて,ファイルローカライゼーション問題に対するベースライン性能評価を行う。
我々は、統計分析を用いて、バグローカライゼーションコミュニティで知られているバイアスがデータセットに与える影響を調査する。
- 参考スコア(独自算出の注目度): 2.1574657220935602
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Bug localisation, the study of developing methods to localise the files requiring changes to resolve bugs, has been researched for a long time to develop methods capable of saving developers' time. Recently, researchers are starting to consider issues outside of bugs. Nevertheless, most existing research into file localisation from issues focusses on bugs or uses other selection methods to ensure only certain types of issues are considered as part of the focus of the work. Our goal is to work on all issues at large, without any specific selection. In this work, we provide a data pipeline for the creation of issue file localisation datasets, capable of dealing with arbitrary branching and merging practices. We provide a baseline performance evaluation for the file localisation problem using traditional information retrieval approaches. Finally, we use statistical analysis to investigate the influence of biases known in the bug localisation community on our dataset. Our results show that methods designed using bug-specific heuristics perform poorly on general issue types, indicating a need for research into general purpose models. Furthermore, we find that there are small, but statistically significant differences in performance between different issue types. Finally, we find that the presence of identifiers have a small effect on performance for most issue types. Many results are project-dependent, encouraging the development of methods which can be tuned to project-specific characteristics.
- Abstract(参考訳): バグローカライゼーション(バグローカライゼーション)とは、バグの解決に必要なファイルをローカライズする手法である。
近年、研究者はバグ以外の問題を考慮し始めている。
それでも、ファイルのローカライゼーションに関する既存の研究のほとんどは、バグに焦点を当てたり、特定の種類の問題だけが作業の焦点の一部として考慮されるように、他の選択方法を使ったりしている。
私たちのゴールは、特定の選択なしにすべての問題に取り組むことです。
本研究では,イシューファイルのローカライゼーションデータセットを作成するためのデータパイプラインを提供する。
従来の情報検索手法を用いて,ファイルローカライゼーション問題に対するベースライン性能評価を行う。
最後に、統計分析を用いて、バグローカライゼーションコミュニティで知られているバイアスがデータセットに与える影響を調査する。
本研究は,バグ特異的ヒューリスティックスを用いて設計した手法が,汎用モデルの研究の必要性を示唆するものである。
さらに,異なる問題種間の性能には,小さいが統計的に有意な差があることが判明した。
最後に、識別子の存在がほとんどのイシュータイプのパフォーマンスに小さな影響を与えていることに気付きました。
多くの結果はプロジェクトに依存しており、プロジェクト固有の特性に合わせて調整できる手法の開発を奨励している。
関連論文リスト
- BLAZE: Cross-Language and Cross-Project Bug Localization via Dynamic Chunking and Hard Example Learning [1.9854146581797698]
BLAZEは動的チャンキングとハードサンプル学習を採用するアプローチである。
プロジェクト横断と言語横断のバグローカライゼーションを強化するために、難しいバグケースを使用してGPTベースのモデルを微調整する。
BLAZEは、トップ1の精度で120%、平均平均精度(MAP)で144%、平均相互ランク(MRR)で100%上昇する。
論文 参考訳(メタデータ) (2024-07-24T20:44:36Z) - Aligning Programming Language and Natural Language: Exploring Design Choices in Multi-Modal Transformer-Based Embedding for Bug Localization [0.7564784873669823]
バグローカライゼーション(バグローカライゼーション)とは、プログラミング言語のソースコードファイルの識別である。
本研究は,14種類の異なる埋め込みモデルを評価し,様々な設計選択の効果について考察した。
以上の結果から,プレトレーニング戦略が組込みの質に大きく影響していることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T15:01:39Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerの総合的な視覚異常検出ベンチマークを提案する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - On Using GUI Interaction Data to Improve Text Retrieval-based Bug
Localization [10.717184444794505]
エンドユーザー向けアプリケーションでは、バグレポート内の情報とGUIの情報とを結びつけることにより、既存のバグローカライゼーション技術を改善することができるという仮説を考察する。
当社は,Androidアプリの完全ローカライズおよび再現可能な真のバグに関する現在の最大のデータセットを,対応するバグレポートとともに公開しています。
論文 参考訳(メタデータ) (2023-10-12T07:14:22Z) - WELL: Applying Bug Detectors to Bug Localization via Weakly Supervised
Learning [37.09621161662761]
本稿では,バグローカライゼーションモデルをトレーニングするためのWEakly supervised bug LocaLization (WELL) 手法を提案する。
CodeBERTはバギーまたはノーのバイナリラベル付きデータに基づいて微調整されるため、WELLはバグのローカライゼーションを弱教師付きで解決することができる。
論文 参考訳(メタデータ) (2023-05-27T06:34:26Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - A Fault Localization and Debugging Support Framework driven by Bug
Tracking Data [0.11915976684257382]
この論文は、さまざまなソースからのデータを組み合わせることで、フォールトローカリゼーションフレームワークを提供することを目指しています。
これを実現するために,バグ分類スキーマを導入し,ベンチマークを作成し,履歴データに基づく新しいフォールトローカライズ手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T13:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。