Fugu-MT 論文翻訳(概要): Cupid: Leveraging ChatGPT for More Accurate Duplicate Bug Report Detection

論文の概要: Cupid: Leveraging ChatGPT for More Accurate Duplicate Bug Report Detection

arxiv url: http://arxiv.org/abs/2308.10022v2
Date: Sun, 27 Aug 2023 13:58:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 13:30:10.773092
Title: Cupid: Leveraging ChatGPT for More Accurate Duplicate Bug Report Detection
Title（参考訳）: Cupid: より正確なバグレポート検出のためのChatGPTの利用
Authors: Ting Zhang, Ivana Clairine Irsan, Ferdian Thung, David Lo
Abstract要約: 本稿では,従来のDBRD手法のREPと最先端の大規模言語モデルChatGPTを組み合わせたCupidという手法を提案する。実験の結果、Cupidは新たな最先端の結果を達成し、分析されたすべてのデータセットに対して、Recall Rate@10スコアが0.59から0.67まで到達した。
参考スコア（独自算出の注目度）: 12.440597259254286
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Duplicate bug report detection (DBRD) is a long-standing challenge in both academia and industry. Over the past decades, researchers have proposed various approaches to detect duplicate bug reports more accurately. With the recent advancement of deep learning, researchers have also proposed several approaches that leverage deep learning models to detect duplicate bug reports. A recent benchmarking study on DBRD also reveals that the performance of deep learning-based approaches is not always better than the traditional approaches. However, traditional approaches have limitations, e.g., they are usually based on the bag-of-words model, which cannot capture the semantics of bug reports. To address these aforementioned challenges, we seek to leverage state-of-the-art large language model to improve the performance of the traditional DBRD approach. In this paper, we propose an approach called Cupid, which combines the best-performing traditional DBRD approach REP with the state-of-the-art large language model ChatGPT. Specifically, we first leverage ChatGPT under the zero-shot setting to get essential information on bug reports. We then use the essential information as the input of REP to detect duplicate bug reports. We conducted an evaluation on comparing Cupid with three existing approaches on three datasets. The experimental results show that Cupid achieves new state-of-the-art results, reaching Recall Rate@10 scores ranging from 0.59 to 0.67 across all the datasets analyzed. Our work highlights the potential of combining large language models to improve the performance of software engineering tasks.
Abstract（参考訳）: 重複バグレポート検出(DBRD)は、学術と産業の両方において長年の課題である。過去数十年にわたって、重複バグレポートをより正確に検出するための様々なアプローチが提案されてきた。近年のディープラーニングの進歩により、ディープラーニングモデルを利用して重複バグレポートを検出するアプローチも提案されている。最近のDBRDのベンチマーク調査では、ディープラーニングベースのアプローチのパフォーマンスが従来のアプローチよりも必ずしも優れているとは限らないことが示されている。しかし、従来のアプローチには制限があり、例えば、バグレポートのセマンティクスをキャプチャできない、通常、単語の袋モデルに基づいている。このような課題に対処するために、我々は最先端の大規模言語モデルを活用して従来のDBRDアプローチの性能を向上させることを模索する。本稿では,従来のDBRD手法のREPと最先端の大規模言語モデルChatGPTを組み合わせたCuupidという手法を提案する。具体的には、まずChatGPTをゼロショット設定で利用し、バグレポートに不可欠な情報を取得する。次に、本質的な情報をREPの入力として使用し、重複バグレポートを検出する。 cupidと既存の3つのアプローチを3つのデータセットで比較した。実験の結果、cupidは新しい最先端の結果を達成し、分析されたデータセットで 0.59 から 0.67 までのリコールレート@10 スコアに達した。私たちの研究は、ソフトウェアエンジニアリングタスクのパフォーマンスを改善するために、大きな言語モデルを組み合わせる可能性を強調します。

関連論文リスト

Tiny Recursive Models on ARC-AGI-1: Inductive Biases, Identity Conditioning, and Test-Time Compute [0.0]
我々はARC-AGI-1のARC Prize TRMチェックポイントを実験的に分析した。テストタイムの増大と多数投票の合理化が報告された性能のかなりの部分を占めていることを示す。また, TRMとLlama 3 8BのQLoRAファインチューンを標準ARC-AGI-1上で比較した。
論文参考訳（メタデータ） (2025-12-04T06:20:44Z)
BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。難易度および多種多様なバグを合成する新しい方法を提案する。
論文参考訳（メタデータ） (2025-10-22T17:58:56Z)
Improving IR-based Bug Localization with Semantics-Driven Query Reduction [0.9298382208776371]
我々は、バグレポートに対してソフトウェアバグをローカライズするための新しいアプローチであるIQLocを提案する。我々は、トランスフォーマーベースのモデルのプログラム意味論的理解を活用して、コードの不確実性を推論する。 IQLocは、スタックトレースを持つバグレポートの91.67%、コード要素を含むバグレポートの72.73%、自然言語の記述のみを含むバグレポートの65.38%を改善する。
論文参考訳（メタデータ） (2025-10-06T03:43:38Z)
TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-06-03T09:23:41Z)
Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning [49.21525229904197]
本研究では,長いCoT推論プロセスのスコアリングに特化して設計されたPRMのための新しいデータアノテーション手法を提案する。本稿では, 誤り伝播と誤認識の概念を導入し, PRMの効果的な自己訂正行動と誤ったステップに基づく推論の両方を識別する能力を高めた。我々のPRMは,探索誘導,BoN,F1スコアなど,様々な指標で優れた性能を実現している。
論文参考訳（メタデータ） (2025-05-20T14:12:05Z)
iEBAKER: Improved Remote Sensing Image-Text Retrieval Framework via Eliminate Before Align and Keyword Explicit Reasoning [80.44805667907612]
iEBAKERは、弱い相関のサンプルペアをフィルタリングする革新的な戦略である。 SAR(Sort After Reversed Retrieval)戦略の代替として,SAR(Sort After Retrieval)戦略を導入する。キーワード明示型推論(KER)モジュールを組み込んで、微妙なキー概念の区別による有益な影響を促進する。
論文参考訳（メタデータ） (2025-04-08T03:40:19Z)
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks [49.0793012627959]
本稿では,価値に基づくパラダイム内での推論モデルに適した新しいフレームワークVAPOを提案する。 VAPOは最先端のスコアが$mathbf60.4$に達する。同じ実験条件下で直接比較すると、VAPOはDeepSeek-R1-Zero-Qwen-32BとDAPOの結果を10点以上上回っている。
論文参考訳（メタデータ） (2025-04-07T14:21:11Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。 TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文参考訳（メタデータ） (2024-11-11T18:59:45Z)
Reinforcement Learning-Based REST API Testing with Multi-Coverage [4.127886193201882]
MUCORESTは、Qラーニングを利用してコードカバレッジと出力カバレッジを最大化する、新しい強化学習(RL)ベースのAPIテストアプローチである。 MUCORESTは、発見されたAPIバグの数で、最先端のAPIテストアプローチを11.6-261.1%上回っている。
論文参考訳（メタデータ） (2024-10-20T14:20:23Z)
Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。 BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-09-21T18:39:53Z)
Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文参考訳（メタデータ） (2024-03-04T16:21:54Z)
CEBin: A Cost-Effective Framework for Large-Scale Binary Code Similarity Detection [23.8834126695488]
バイナリコード類似度検出(BCSD)は様々なアプリケーションの基本技術である。本稿では,組込み型および比較型アプローチを融合した,費用対効果の高いBCSDフレームワークCEBinを提案する。
論文参考訳（メタデータ） (2024-02-29T03:02:07Z)
Measuring Improvement of F$_1$-Scores in Detection of Self-Admitted Technical Debt [5.750379648650073]
変換器(BERT)アーキテクチャからの双方向表現を利用した新しいアプローチによりSATDの検出を改善する。トレーニングされたBERTモデルは、プロジェクト横断シナリオにおいて、20プロジェクト中19プロジェクトにおいて、以前のすべてのメソッドの最高のパフォーマンスよりも改善されていることが分かりました。今後の研究では、SATDデータセットを多様化して、大きなBERTモデルの潜伏電力を最大化する方法について検討する予定である。
論文参考訳（メタデータ） (2023-03-16T19:47:38Z)
Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。 FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文参考訳（メタデータ） (2023-02-01T18:59:36Z)
Re-TACRED: Addressing Shortcomings of the TACRED Dataset [5.820381428297218]
TACREDは、最大かつ最も広く使われている文レベルの関係抽出データセットの1つである。このデータセットを用いて評価された提案モデルは、新しい最先端のパフォーマンスを一貫して設定する。しかし、彼らはまだ大規模なテキストコーポラで外部の知識と教師なしの事前訓練を利用しながら大きなエラー率を示しています。
論文参考訳（メタデータ） (2021-04-16T22:55:11Z)
Diverse Knowledge Distillation for End-to-End Person Search [81.4926655119318]
人物検索は、画像ギャラリーから特定の人物をローカライズし識別することを目的としている。最近の手法は2つのグループ、すなわち2段階とエンドツーエンドのアプローチに分類できる。ボトルネックを解消するために、多様な知識蒸留を備えたシンプルで強力なエンドツーエンドネットワークを提案します。
論文参考訳（メタデータ） (2020-12-21T09:04:27Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。