論文の概要: Combining Retrieval and Classification: Balancing Efficiency and Accuracy in Duplicate Bug Report Detection
- arxiv url: http://arxiv.org/abs/2404.14877v1
- Date: Tue, 23 Apr 2024 10:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 14:41:16.052809
- Title: Combining Retrieval and Classification: Balancing Efficiency and Accuracy in Duplicate Bug Report Detection
- Title(参考訳): 検索と分類の組み合わせ:重複バグレポート検出における効率と精度のバランス
- Authors: Qianru Meng, Xiao Zhang, Guus Ramackers, Visser Joost,
- Abstract要約: 本稿では,時間効率と精度性能のバランスをとるために,変圧器を用いたシステムを提案する。
我々のシステムは、分類モデルに匹敵する精度を維持し、時間効率で大幅に向上し、検索モデルよりもわずかに遅れている。
- 参考スコア(独自算出の注目度): 2.522333180723133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of Duplicate Bug Report Detection (DBRD), conventional methods primarily focus on statically analyzing bug databases, often disregarding the running time of the model. In this context, complex models, despite their high accuracy potential, can be time-consuming, while more efficient models may compromise on accuracy. To address this issue, we propose a transformer-based system designed to strike a balance between time efficiency and accuracy performance. The existing methods primarily address it as either a retrieval or classification task. However, our hybrid approach leverages the strengths of both models. By utilizing the retrieval model, we can perform initial sorting to reduce the candidate set, while the classification model allows for more precise and accurate classification. In our assessment of commonly used models for retrieval and classification tasks, sentence BERT and RoBERTa outperform other baseline models in retrieval and classification, respectively. To provide a comprehensive evaluation of performance and efficiency, we conduct rigorous experimentation on five public datasets. The results reveal that our system maintains accuracy comparable to a classification model, significantly outperforming it in time efficiency and only slightly behind a retrieval model in time, thereby achieving an effective trade-off between accuracy and efficiency.
- Abstract(参考訳): Duplicate Bug Report Detection (DBRD) の領域では、従来の手法は主にバグデータベースを静的に解析することに焦点を当てており、しばしばモデルの実行時間を無視している。
この文脈では、高い精度のポテンシャルにもかかわらず、複雑なモデルは時間がかかり、より効率的なモデルは精度を損なう可能性がある。
この問題に対処するために,時間効率と精度性能のバランスをとるための変圧器ベースシステムを提案する。
既存の手法は、主に検索タスクまたは分類タスクとして扱う。
しかし、我々のハイブリッドアプローチは両方のモデルの強みを利用する。
検索モデルを利用することで、初期ソートを行い、候補集合を減らし、分類モデルによりより正確で正確な分類が可能となる。
検索および分類タスクによく用いられるモデルの評価において,文BERTとRoBERTaは検索および分類において,他のベースラインモデルよりも優れていた。
5つの公開データセット上で厳密な実験を行う。
その結果,本システムは分類モデルに匹敵する精度を保ち,時間効率で大幅に向上し,検索モデルよりもわずかに遅れていることが明らかとなった。
関連論文リスト
- A Framework for Efficient Model Evaluation through Stratification, Sampling, and Estimation [17.351089059392674]
本稿では,階層化,サンプリング,推定を含むモデル評価のためのフレームワークを提案する。
モデル性能の正確な予測に基づいて,k平均クラスタリングによる成層化を行うことで,効率的に推定できることを示す。
また、データセットのラベル付けされていない部分におけるモデル精度の予測を利用するモデル支援推定器は、一般的に従来の推定値よりも効率的であることがわかった。
論文 参考訳(メタデータ) (2024-06-11T14:49:04Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Stabilizing Subject Transfer in EEG Classification with Divergence
Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。
理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。
我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文 参考訳(メタデータ) (2023-10-12T23:06:52Z) - Simultaneous Improvement of ML Model Fairness and Performance by
Identifying Bias in Data [1.76179873429447]
トレーニング前にデータセットから削除すべき特定の種類のバイアスを記述したインスタンスを検出できるデータ前処理手法を提案する。
特に、類似した特徴を持つインスタンスが存在するが、保護属性の変動に起因するラベルが異なる問題設定では、固有のバイアスがデータセット内で引き起こされる、と主張する。
論文 参考訳(メタデータ) (2022-10-24T13:04:07Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Probabilistic Case-based Reasoning for Open-World Knowledge Graph
Completion [59.549664231655726]
ケースベース推論(CBR)システムは,与えられた問題に類似した事例を検索することで,新たな問題を解決する。
本稿では,知識ベース(KB)の推論において,そのようなシステムが実現可能であることを示す。
提案手法は,KB内の類似エンティティからの推論パスを収集することにより,エンティティの属性を予測する。
論文 参考訳(メタデータ) (2020-10-07T17:48:12Z) - Monotonic Cardinality Estimation of Similarity Selection: A Deep
Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。
本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文 参考訳(メタデータ) (2020-02-15T20:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。