論文の概要: CUPID: Leveraging ChatGPT for More Accurate Duplicate Bug Report Detection
- arxiv url: http://arxiv.org/abs/2308.10022v3
- Date: Tue, 16 Jul 2024 11:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 00:10:39.534457
- Title: CUPID: Leveraging ChatGPT for More Accurate Duplicate Bug Report Detection
- Title(参考訳): CUPID:より正確なバグレポート検出のためのChatGPTの活用
- Authors: Ting Zhang, Ivana Clairine Irsan, Ferdian Thung, David Lo,
- Abstract要約: 重複バグレポート検出(DBRD)は、学術と産業の両方において長年の課題である。
本稿では,従来のDBRD手法と最先端LLMを組み合わせたCUPIDという手法を提案する。
CUPIDは、解析されたすべてのデータセットで0.602から0.654までのRecall Rate@10スコアに達する、最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 11.388023221294686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Duplicate bug report detection (DBRD) is a long-standing challenge in both academia and industry. Over the past decades, researchers have proposed various approaches to detect duplicate bug reports more accurately. With the recent advancement of deep learning, researchers have also proposed several deep learning-based approaches to address the DBRD task. In the bug repositories with many bug reports, deep learning-based approaches have shown promising performance. However, in the bug repositories with a smaller number of bug reports, i.e., around 10k, the existing deep learning approaches show worse performance than the traditional approaches. Traditional approaches have limitations, too, e.g., they are usually based on the bag-of-words model, which cannot capture the semantics of bug reports. To address these aforementioned challenges, we seek to leverage a state-of-the-art large language model (LLM) to improve the performance of the traditional DBRD approach. In this paper, we propose an approach called CUPID, which combines the bestperforming traditional DBRD approach (i.e., REP) with the state-of-the-art LLM (i.e., ChatGPT). We conducted an evaluation by comparing CUPID with three existing approaches on three datasets. The experimental results show that CUPID achieves state-of-theart results, reaching Recall Rate@10 scores ranging from 0.602 to 0.654 across all the datasets analyzed. In particular, CUPID improves over the prior state-ofthe-art approach by 5% - 8% in terms of Recall Rate@10 in the datasets. CUPID also surpassed the state-of-the-art deep learning-based DBRD approach by up to 82%.
- Abstract(参考訳): 重複バグレポート検出(DBRD)は、学術と産業の両方において長年の課題である。
過去数十年にわたって、重複バグレポートをより正確に検出するための様々なアプローチが提案されてきた。
近年のディープラーニングの進歩により、DBRDタスクに対処するためのディープラーニングベースのアプローチもいくつか提案されている。
多くのバグレポートを持つバグリポジトリでは、ディープラーニングベースのアプローチが有望なパフォーマンスを示している。
しかし、バグ報告が少ないバグレポジトリでは、既存のディープラーニングアプローチは従来のアプローチよりもパフォーマンスが悪くなっている。
従来のアプローチにも制限がある。例えば、バグレポートのセマンティクスをキャプチャできないbag-of-wordsモデルに基づいているのが一般的だ。
上記の課題に対処するため,従来のDBRDアプローチの性能向上のために,最先端の大規模言語モデル(LLM)を活用しようと考えている。
本稿では,従来のDBRD手法(すなわちREP)と最先端LLM(すなわちChatGPT)を組み合わせたCUPIDという手法を提案する。
CUPIDと既存の3つのデータセットを比較して評価を行った。
実験の結果、CUPIDは最先端の結果を達成し、解析されたすべてのデータセットに対して、Recall Rate@10スコアが0.602から0.654まで到達した。
特に、CUPIDは、データセットのリコールレート@10において、従来の最先端アプローチよりも5%から8%改善している。
CUPIDはまた、最先端のディープラーニングベースのDBRDアプローチを最大82%上回った。
関連論文リスト
- The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Reinforcement Learning-Based REST API Testing with Multi-Coverage [4.127886193201882]
MUCORESTは、Qラーニングを利用してコードカバレッジと出力カバレッジを最大化する、新しい強化学習(RL)ベースのAPIテストアプローチである。
MUCORESTは、発見されたAPIバグの数で、最先端のAPIテストアプローチを11.6-261.1%上回っている。
論文 参考訳(メタデータ) (2024-10-20T14:20:23Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - CEBin: A Cost-Effective Framework for Large-Scale Binary Code Similarity
Detection [23.8834126695488]
バイナリコード類似度検出(BCSD)は様々なアプリケーションの基本技術である。
本稿では,組込み型および比較型アプローチを融合した,費用対効果の高いBCSDフレームワークCEBinを提案する。
論文 参考訳(メタデータ) (2024-02-29T03:02:07Z) - Measuring Improvement of F$_1$-Scores in Detection of Self-Admitted
Technical Debt [5.750379648650073]
変換器(BERT)アーキテクチャからの双方向表現を利用した新しいアプローチによりSATDの検出を改善する。
トレーニングされたBERTモデルは、プロジェクト横断シナリオにおいて、20プロジェクト中19プロジェクトにおいて、以前のすべてのメソッドの最高のパフォーマンスよりも改善されていることが分かりました。
今後の研究では、SATDデータセットを多様化して、大きなBERTモデルの潜伏電力を最大化する方法について検討する予定である。
論文 参考訳(メタデータ) (2023-03-16T19:47:38Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z) - Re-TACRED: Addressing Shortcomings of the TACRED Dataset [5.820381428297218]
TACREDは、最大かつ最も広く使われている文レベルの関係抽出データセットの1つである。
このデータセットを用いて評価された提案モデルは、新しい最先端のパフォーマンスを一貫して設定する。
しかし、彼らはまだ大規模なテキストコーポラで外部の知識と教師なしの事前訓練を利用しながら大きなエラー率を示しています。
論文 参考訳(メタデータ) (2021-04-16T22:55:11Z) - Diverse Knowledge Distillation for End-to-End Person Search [81.4926655119318]
人物検索は、画像ギャラリーから特定の人物をローカライズし識別することを目的としている。
最近の手法は2つのグループ、すなわち2段階とエンドツーエンドのアプローチに分類できる。
ボトルネックを解消するために、多様な知識蒸留を備えたシンプルで強力なエンドツーエンドネットワークを提案します。
論文 参考訳(メタデータ) (2020-12-21T09:04:27Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。