Fugu-MT 論文翻訳(概要): A Comparative Study of Text Embedding Models for Semantic Text Similarity in Bug Reports

論文の概要: A Comparative Study of Text Embedding Models for Semantic Text Similarity in Bug Reports

arxiv url: http://arxiv.org/abs/2308.09193v2
Date: Thu, 30 Nov 2023 23:43:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-04 18:07:56.929080
Title: A Comparative Study of Text Embedding Models for Semantic Text Similarity in Bug Reports
Title（参考訳）: バグレポートにおける意味的テキスト類似性のためのテキスト埋め込みモデルの比較研究
Authors: Avinash Patil, Kihwan Han, Aryan Jadon
Abstract要約: 既存のデータベースから同様のバグレポートを取得することは、バグを解決するのに必要な時間と労力を削減するのに役立つ。我々はTF-IDF(Baseline)、FastText、Gensim、BERT、ADAなどの埋め込みモデルについて検討した。本研究は, 類似のバグレポートを検索するための埋め込み手法の有効性について考察し, 適切なバグレポートを選択することの影響を明らかにする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Bug reports are an essential aspect of software development, and it is crucial to identify and resolve them quickly to ensure the consistent functioning of software systems. Retrieving similar bug reports from an existing database can help reduce the time and effort required to resolve bugs. In this paper, we compared the effectiveness of semantic textual similarity methods for retrieving similar bug reports based on a similarity score. We explored several embedding models such as TF-IDF (Baseline), FastText, Gensim, BERT, and ADA. We used the Software Defects Data containing bug reports for various software projects to evaluate the performance of these models. Our experimental results showed that BERT generally outperformed the rest of the models regarding recall, followed by ADA, Gensim, FastText, and TFIDF. Our study provides insights into the effectiveness of different embedding methods for retrieving similar bug reports and highlights the impact of selecting the appropriate one for this task. Our code is available on GitHub.
Abstract（参考訳）: バグレポートはソフトウェア開発の重要な側面であり、ソフトウェアシステムの一貫した機能を保証するために、それらを素早く特定し、解決することが重要である。既存のデータベースから同様のバグレポートを取得することは、バグを解決するのに必要な時間と労力を削減するのに役立つ。本稿では,類似度スコアに基づく類似バグレポート検索における意味的テキスト類似性手法の有効性を比較した。我々はTF-IDF(Baseline)、FastText、Gensim、BERT、ADAなどの埋め込みモデルを探索した。さまざまなソフトウェアプロジェクトでバグレポートを含むソフトウェア欠陥データを使用して、これらのモデルのパフォーマンスを評価しました。実験の結果、BERTはリコールに関する他のモデルよりも優れており、ADA、Gensim、FastText、TFIDFが続くことがわかった。本研究は,同様のバグレポートを検索するための様々な組込み手法の有効性に関する洞察を提供し,このタスクに適切な方法を選択することの影響を強調する。コードはgithubから入手できます。

関連論文リスト

Few-shot learning for security bug report identification [0.5076419064097734]
本稿では,ラベル付き限られたデータを用いて,セキュリティバグレポートを識別するための数ショットの学習手法を提案する。文変換器とコントラスト学習とパラメータ効率のよい微調整を組み合わせた,最先端の数ショット学習フレームワークであるSetFitを採用している。提案手法は,評価されたすべてのデータセットに対して,最大0.865のAUCを達成し,従来のML技術(ベースライン)を上回っている。
論文参考訳（メタデータ） (2026-01-06T12:29:20Z)
BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。難易度および多種多様なバグを合成する新しい方法を提案する。
論文参考訳（メタデータ） (2025-10-22T17:58:56Z)
Automated Duplicate Bug Report Detection in Large Open Bug Repositories [3.481985817302898]
大規模なオープンソースプロジェクトのユーザやコントリビュータは,問題追跡システムにソフトウェア欠陥や拡張要求(バグレポートとして知られる)を報告している。オープンバグレポジトリにおける重複バグレポートを自動的に検出する機械学習手法に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2025-04-21T01:55:54Z)
An Empirical Study on the Classification of Bug Reports with Machine Learning [1.1499574149885023]
課題報告の分類処理において,異なる要因(プロジェクト言語,報告内容など)がモデルの性能に与える影響について検討する。 Support Vector Machine, Logistic Regression, Random Forestは課題レポートの分類に有効である。不均一なプロジェクトに基づくモデルは、トレーニング中に存在しないプロジェクトからのレポートを分類することができる。
論文参考訳（メタデータ） (2025-03-01T23:19:56Z)
Improved IR-based Bug Localization with Intelligent Relevance Feedback [2.9312156642007294]
ソフトウェアバグは、開発とメンテナンスにおいて重大な課題となり、実践者は、バグを扱うのに約50%の時間を費やします。既存の多くのテクニックでは、バグレポートとソースコードの間のテキストおよび意味的関連性を使用して、報告されたバグをローカライズするために、Information Retrieval (IR)を採用している。本稿では,バグレポートとコードの関連性を評価することによって,コンテキストギャップに対処する新たなバグローカライゼーション手法であるBRaInを提案する。
論文参考訳（メタデータ） (2025-01-17T20:29:38Z)
A Comparative Study of Transformer-based Neural Text Representation Techniques on Bug Triaging [8.831760500324318]
我々は、バグトリアージのタスクにおいて、ファイントゥーントランスフォーマーベースの言語モデルに関する最初の調査の1つを提供している。 DeBERTaは、開発者とコンポーネントの割り当てのトリアージタスクの中で、最も効果的なテクニックです。
論文参考訳（メタデータ） (2023-10-10T18:09:32Z)
Too Few Bug Reports? Exploring Data Augmentation for Improved Changeset-based Bug Localization [7.884766610628946]
本稿では,バグレポートの異なる構成要素に作用する新しいデータ拡張演算子を提案する。また、拡張バグレポートのコーパス作成を目的としたデータバランス戦略についても述べる。
論文参考訳（メタデータ） (2023-05-25T19:06:01Z)
Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文参考訳（メタデータ） (2023-03-16T00:06:28Z)
Auto-labelling of Bug Report using Natural Language Processing [0.0]
ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。本論文では,NLP手法の組み合わせによる解を提案する。カスタムデータトランスフォーマー、ディープニューラルネットワーク、および非汎用機械学習メソッドを使用して、既存の同一バグレポートを検索する。
論文参考訳（メタデータ） (2022-12-13T02:32:42Z)
Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文参考訳（メタデータ） (2022-11-11T16:37:33Z)
A Causal Framework to Quantify the Robustness of Mathematical Reasoning with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文参考訳（メタデータ） (2022-10-21T15:12:37Z)
CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation [91.16551253297588]
Counterfactual Generation via Retrieval and Editing (CORE) は、トレーニングのための多様な反事実摂動を生成するための検索強化された生成フレームワークである。 COREはまず、学習されたバイエンコーダを用いて、タスク関連未ラベルテキストコーパス上で密集した検索を行う。 COREはこれらを、反ファクト編集のために、数ショットの学習機能を備えた大規模な言語モデルへのプロンプトに組み込む。
論文参考訳（メタデータ） (2022-10-10T17:45:38Z)
SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。 5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文参考訳（メタデータ） (2022-09-14T06:27:51Z)
Automatic Classification of Bug Reports Based on Multiple Text Information and Reports' Intention [37.67372105858311]
本稿では,バグレポートの自動分類手法を提案する。イノベーションは、バグレポートを分類する際に、レポートのテキスト情報に加えて、レポートの意図も考慮することである。提案手法は性能が向上し,F-Measureは87.3%から95.5%に向上した。
論文参考訳（メタデータ） (2022-08-02T06:44:51Z)
Automatic Issue Classifier: A Transfer Learning Framework for Classifying Issue Reports [0.0]
私たちはRoBERTaと呼ばれる既製のニューラルネットワークを使って、問題を分類しています。本稿では,問題レポートを複数ラベル設定で分類するアプローチを提案する。我々はRoBERTaと呼ばれる市販のニューラルネットワークを用いて,問題レポートの分類を行う。
論文参考訳（メタデータ） (2022-02-12T21:43:08Z)
S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。 BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文参考訳（メタデータ） (2021-03-18T21:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。