Fugu-MT 論文翻訳(概要): CUPID: Leveraging ChatGPT for More Accurate Duplicate Bug Report Detection

論文の概要: CUPID: Leveraging ChatGPT for More Accurate Duplicate Bug Report Detection

arxiv url: http://arxiv.org/abs/2308.10022v3
Date: Tue, 16 Jul 2024 11:56:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 00:10:39.534457
Title: CUPID: Leveraging ChatGPT for More Accurate Duplicate Bug Report Detection
Title（参考訳）: CUPID:より正確なバグレポート検出のためのChatGPTの活用
Authors: Ting Zhang, Ivana Clairine Irsan, Ferdian Thung, David Lo,
Abstract要約: 重複バグレポート検出(DBRD)は、学術と産業の両方において長年の課題である。本稿では,従来のDBRD手法と最先端LLMを組み合わせたCUPIDという手法を提案する。 CUPIDは、解析されたすべてのデータセットで0.602から0.654までのRecall Rate@10スコアに達する、最先端の結果を達成する。
参考スコア（独自算出の注目度）: 11.388023221294686
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Duplicate bug report detection (DBRD) is a long-standing challenge in both academia and industry. Over the past decades, researchers have proposed various approaches to detect duplicate bug reports more accurately. With the recent advancement of deep learning, researchers have also proposed several deep learning-based approaches to address the DBRD task. In the bug repositories with many bug reports, deep learning-based approaches have shown promising performance. However, in the bug repositories with a smaller number of bug reports, i.e., around 10k, the existing deep learning approaches show worse performance than the traditional approaches. Traditional approaches have limitations, too, e.g., they are usually based on the bag-of-words model, which cannot capture the semantics of bug reports. To address these aforementioned challenges, we seek to leverage a state-of-the-art large language model (LLM) to improve the performance of the traditional DBRD approach. In this paper, we propose an approach called CUPID, which combines the bestperforming traditional DBRD approach (i.e., REP) with the state-of-the-art LLM (i.e., ChatGPT). We conducted an evaluation by comparing CUPID with three existing approaches on three datasets. The experimental results show that CUPID achieves state-of-theart results, reaching Recall Rate@10 scores ranging from 0.602 to 0.654 across all the datasets analyzed. In particular, CUPID improves over the prior state-ofthe-art approach by 5% - 8% in terms of Recall Rate@10 in the datasets. CUPID also surpassed the state-of-the-art deep learning-based DBRD approach by up to 82%.
Abstract（参考訳）: 重複バグレポート検出(DBRD)は、学術と産業の両方において長年の課題である。過去数十年にわたって、重複バグレポートをより正確に検出するための様々なアプローチが提案されてきた。近年のディープラーニングの進歩により、DBRDタスクに対処するためのディープラーニングベースのアプローチもいくつか提案されている。多くのバグレポートを持つバグリポジトリでは、ディープラーニングベースのアプローチが有望なパフォーマンスを示している。しかし、バグ報告が少ないバグレポジトリでは、既存のディープラーニングアプローチは従来のアプローチよりもパフォーマンスが悪くなっている。従来のアプローチにも制限がある。例えば、バグレポートのセマンティクスをキャプチャできないbag-of-wordsモデルに基づいているのが一般的だ。上記の課題に対処するため,従来のDBRDアプローチの性能向上のために,最先端の大規模言語モデル(LLM)を活用しようと考えている。本稿では,従来のDBRD手法(すなわちREP)と最先端LLM(すなわちChatGPT)を組み合わせたCUPIDという手法を提案する。 CUPIDと既存の3つのデータセットを比較して評価を行った。実験の結果、CUPIDは最先端の結果を達成し、解析されたすべてのデータセットに対して、Recall Rate@10スコアが0.602から0.654まで到達した。特に、CUPIDは、データセットのリコールレート@10において、従来の最先端アプローチよりも5%から8%改善している。 CUPIDはまた、最先端のディープラーニングベースのDBRDアプローチを最大82%上回った。

関連論文リスト

Tiny Recursive Models on ARC-AGI-1: Inductive Biases, Identity Conditioning, and Test-Time Compute [0.0]
我々はARC-AGI-1のARC Prize TRMチェックポイントを実験的に分析した。テストタイムの増大と多数投票の合理化が報告された性能のかなりの部分を占めていることを示す。また, TRMとLlama 3 8BのQLoRAファインチューンを標準ARC-AGI-1上で比較した。
論文参考訳（メタデータ） (2025-12-04T06:20:44Z)
BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。難易度および多種多様なバグを合成する新しい方法を提案する。
論文参考訳（メタデータ） (2025-10-22T17:58:56Z)
Improving IR-based Bug Localization with Semantics-Driven Query Reduction [0.9298382208776371]
我々は、バグレポートに対してソフトウェアバグをローカライズするための新しいアプローチであるIQLocを提案する。我々は、トランスフォーマーベースのモデルのプログラム意味論的理解を活用して、コードの不確実性を推論する。 IQLocは、スタックトレースを持つバグレポートの91.67%、コード要素を含むバグレポートの72.73%、自然言語の記述のみを含むバグレポートの65.38%を改善する。
論文参考訳（メタデータ） (2025-10-06T03:43:38Z)
TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-06-03T09:23:41Z)
Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning [49.21525229904197]
本研究では,長いCoT推論プロセスのスコアリングに特化して設計されたPRMのための新しいデータアノテーション手法を提案する。本稿では, 誤り伝播と誤認識の概念を導入し, PRMの効果的な自己訂正行動と誤ったステップに基づく推論の両方を識別する能力を高めた。我々のPRMは,探索誘導,BoN,F1スコアなど,様々な指標で優れた性能を実現している。
論文参考訳（メタデータ） (2025-05-20T14:12:05Z)
iEBAKER: Improved Remote Sensing Image-Text Retrieval Framework via Eliminate Before Align and Keyword Explicit Reasoning [80.44805667907612]
iEBAKERは、弱い相関のサンプルペアをフィルタリングする革新的な戦略である。 SAR(Sort After Reversed Retrieval)戦略の代替として,SAR(Sort After Retrieval)戦略を導入する。キーワード明示型推論(KER)モジュールを組み込んで、微妙なキー概念の区別による有益な影響を促進する。
論文参考訳（メタデータ） (2025-04-08T03:40:19Z)
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks [49.0793012627959]
本稿では,価値に基づくパラダイム内での推論モデルに適した新しいフレームワークVAPOを提案する。 VAPOは最先端のスコアが$mathbf60.4$に達する。同じ実験条件下で直接比較すると、VAPOはDeepSeek-R1-Zero-Qwen-32BとDAPOの結果を10点以上上回っている。
論文参考訳（メタデータ） (2025-04-07T14:21:11Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。 TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文参考訳（メタデータ） (2024-11-11T18:59:45Z)
Reinforcement Learning-Based REST API Testing with Multi-Coverage [4.127886193201882]
MUCORESTは、Qラーニングを利用してコードカバレッジと出力カバレッジを最大化する、新しい強化学習(RL)ベースのAPIテストアプローチである。 MUCORESTは、発見されたAPIバグの数で、最先端のAPIテストアプローチを11.6-261.1%上回っている。
論文参考訳（メタデータ） (2024-10-20T14:20:23Z)
Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。 BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-09-21T18:39:53Z)
Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文参考訳（メタデータ） (2024-03-04T16:21:54Z)
CEBin: A Cost-Effective Framework for Large-Scale Binary Code Similarity Detection [23.8834126695488]
バイナリコード類似度検出(BCSD)は様々なアプリケーションの基本技術である。本稿では,組込み型および比較型アプローチを融合した,費用対効果の高いBCSDフレームワークCEBinを提案する。
論文参考訳（メタデータ） (2024-02-29T03:02:07Z)
Measuring Improvement of F$_1$-Scores in Detection of Self-Admitted Technical Debt [5.750379648650073]
変換器(BERT)アーキテクチャからの双方向表現を利用した新しいアプローチによりSATDの検出を改善する。トレーニングされたBERTモデルは、プロジェクト横断シナリオにおいて、20プロジェクト中19プロジェクトにおいて、以前のすべてのメソッドの最高のパフォーマンスよりも改善されていることが分かりました。今後の研究では、SATDデータセットを多様化して、大きなBERTモデルの潜伏電力を最大化する方法について検討する予定である。
論文参考訳（メタデータ） (2023-03-16T19:47:38Z)
Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。 FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文参考訳（メタデータ） (2023-02-01T18:59:36Z)
Re-TACRED: Addressing Shortcomings of the TACRED Dataset [5.820381428297218]
TACREDは、最大かつ最も広く使われている文レベルの関係抽出データセットの1つである。このデータセットを用いて評価された提案モデルは、新しい最先端のパフォーマンスを一貫して設定する。しかし、彼らはまだ大規模なテキストコーポラで外部の知識と教師なしの事前訓練を利用しながら大きなエラー率を示しています。
論文参考訳（メタデータ） (2021-04-16T22:55:11Z)
Diverse Knowledge Distillation for End-to-End Person Search [81.4926655119318]
人物検索は、画像ギャラリーから特定の人物をローカライズし識別することを目的としている。最近の手法は2つのグループ、すなわち2段階とエンドツーエンドのアプローチに分類できる。ボトルネックを解消するために、多様な知識蒸留を備えたシンプルで強力なエンドツーエンドネットワークを提案します。
論文参考訳（メタデータ） (2020-12-21T09:04:27Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。