論文の概要: Understanding the Impact of Domain Term Explanation on Duplicate Bug Report Detection
- arxiv url: http://arxiv.org/abs/2503.18832v1
- Date: Mon, 24 Mar 2025 16:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:37:56.265756
- Title: Understanding the Impact of Domain Term Explanation on Duplicate Bug Report Detection
- Title(参考訳): 重複バグレポート検出におけるドメイン項説明の影響の理解
- Authors: Usmi Mukherjee, Mohammad Masudur Rahman,
- Abstract要約: 重複バグレポートはバグトラッキングシステム(例えばBugzilla)の全レポートの42%を占める。
伝統的な技法は、しばしばテキストに類似した複製を検出することに重点を置いている。
オープンソースプロジェクトのバグレポートの約78%は非常に短い(例:100語未満)。
- 参考スコア(独自算出の注目度): 2.9312156642007294
- License:
- Abstract: Duplicate bug reports make up 42% of all reports in bug tracking systems (e.g., Bugzilla), causing significant maintenance overhead. Hence, detecting and resolving duplicate bug reports is essential for effective issue management. Traditional techniques often focus on detecting textually similar duplicates. However, existing literature has shown that up to 23% of the duplicate bug reports are textually dissimilar. Moreover, about 78% of bug reports in open-source projects are very short (e.g., less than 100 words) often containing domain-specific terms or jargon, making the detection of their duplicate bug reports difficult. In this paper, we conduct a large-scale empirical study to investigate whether and how enrichment of bug reports with the explanations of their domain terms or jargon can help improve the detection of duplicate bug reports. We use 92,854 bug reports from three open-source systems, replicate seven existing baseline techniques for duplicate bug report detection, and answer two research questions in this work. We found significant performance gains in the existing techniques when explanations of domain-specific terms or jargon were leveraged to enrich the bug reports. Our findings also suggest that enriching bug reports with such explanations can significantly improve the detection of duplicate bug reports that are textually dissimilar.
- Abstract(参考訳): 重複バグレポートはバグトラッキングシステム(例:Bugzilla)の全レポートの42%を占め、大幅なメンテナンスオーバーヘッドを引き起こしている。
したがって、重複バグレポートの検出と解決は、効果的な課題管理に不可欠である。
伝統的な技法は、しばしばテキストに類似した複製を検出することに重点を置いている。
しかし、既存の文献では、重複バグレポートの最大23%がテキスト的に異なることが示されている。
さらに、オープンソースプロジェクトのバグレポートの約78%は非常に短い(例:100語未満)。
本稿では, バグレポートの充実が, 重複バグレポートの検出に有効であるかどうかを, 大規模な実証研究により検証する。
3つのオープンソースシステムからの92,854のバグレポートを使用し、バグレポートの重複検出のために既存の7つのベースラインテクニックを複製し、本研究で2つの研究質問に答える。
既存のテクニックでは、ドメイン固有の用語やjargonの説明を活用してバグレポートを充実させると、パフォーマンスが大幅に向上することがわかった。
また,このような説明によるバグレポートの充実は,テキスト的に異なる重複バグレポートの検出を著しく改善する可能性が示唆された。
関連論文リスト
- Improved IR-based Bug Localization with Intelligent Relevance Feedback [2.9312156642007294]
ソフトウェアバグは、開発とメンテナンスにおいて重大な課題となり、実践者は、バグを扱うのに約50%の時間を費やします。
既存の多くのテクニックでは、バグレポートとソースコードの間のテキストおよび意味的関連性を使用して、報告されたバグをローカライズするために、Information Retrieval (IR)を採用している。
本稿では,バグレポートとコードの関連性を評価することによって,コンテキストギャップに対処する新たなバグローカライゼーション手法であるBRaInを提案する。
論文 参考訳(メタデータ) (2025-01-17T20:29:38Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Toward Rapid Bug Resolution for Android Apps [0.4759142872591625]
本稿では,既存のバグレポートの限界について述べるとともに,それに対応するための潜在的戦略を明らかにする。
私たちのビジョンは、これらの制限の緩和と、提案された新しい研究の方向性の実行が、レポーターと開発者の両方に利益をもたらす、未来を包含しています。
論文 参考訳(メタデータ) (2023-12-23T18:29:06Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Auto-labelling of Bug Report using Natural Language Processing [0.0]
ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。
本論文では,NLP手法の組み合わせによる解を提案する。
カスタムデータトランスフォーマー、ディープニューラルネットワーク、および非汎用機械学習メソッドを使用して、既存の同一バグレポートを検索する。
論文 参考訳(メタデータ) (2022-12-13T02:32:42Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z) - Automatic Classification of Bug Reports Based on Multiple Text
Information and Reports' Intention [37.67372105858311]
本稿では,バグレポートの自動分類手法を提案する。
イノベーションは、バグレポートを分類する際に、レポートのテキスト情報に加えて、レポートの意図も考慮することである。
提案手法は性能が向上し,F-Measureは87.3%から95.5%に向上した。
論文 参考訳(メタデータ) (2022-08-02T06:44:51Z) - Reference-based Defect Detection Network [57.89399576743665]
最初の問題はテクスチャシフトであり、これはトレーニングされた欠陥検出モデルが目に見えないテクスチャの影響を受けやすいことを意味する。
第2の問題は部分的な視覚的混乱であり、部分的な欠陥ボックスが完全なボックスと視覚的に類似していることを示している。
本稿では,これら2つの問題に対処する参照型欠陥検出ネットワーク(RDDN)を提案する。
論文 参考訳(メタデータ) (2021-08-10T05:44:23Z) - S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。
BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。
私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文 参考訳(メタデータ) (2021-03-18T21:10:41Z) - Advaita: Bug Duplicity Detection System [1.9624064951902522]
重複バグ率(重複バグの%)は、製品の成熟度、コードのサイズ、プロジェクトに取り組んでいるエンジニアの数に基づいて、1桁(1~9%)から2桁(40%)の範囲にある。
重複の検出は、2つのバグが同じ意味を持つかどうかを識別する。
このアプローチでは、基本的なテキスト統計的特徴、意味的特徴、文脈的特徴など、複数の機能セットを考慮に入れている。
論文 参考訳(メタデータ) (2020-01-24T04:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。