論文の概要: A Comparative Study of Transformer-based Neural Text Representation
Techniques on Bug Triaging
- arxiv url: http://arxiv.org/abs/2310.06913v1
- Date: Tue, 10 Oct 2023 18:09:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 07:56:31.064632
- Title: A Comparative Study of Transformer-based Neural Text Representation
Techniques on Bug Triaging
- Title(参考訳): バグトリージングにおけるトランスフォーマティブに基づくニューラルテキスト表現手法の比較研究
- Authors: Atish Kumar Dipongkor, Kevin Moran
- Abstract要約: 我々は、バグトリアージのタスクにおいて、ファイントゥーントランスフォーマーベースの言語モデルに関する最初の調査の1つを提供している。
DeBERTaは、開発者とコンポーネントの割り当てのトリアージタスクの中で、最も効果的なテクニックです。
- 参考スコア(独自算出の注目度): 8.831760500324318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Often, the first step in managing bug reports is related to triaging a bug to
the appropriate developer who is best suited to understand, localize, and fix
the target bug. Additionally, assigning a given bug to a particular part of a
software project can help to expedite the fixing process. However, despite the
importance of these activities, they are quite challenging, where days can be
spent on the manual triaging process. Past studies have attempted to leverage
the limited textual data of bug reports to train text classification models
that automate this process -- to varying degrees of success. However, the
textual representations and machine learning models used in prior work are
limited by their expressiveness, often failing to capture nuanced textual
patterns that might otherwise aid in the triaging process. Recently, large,
transformer-based, pre-trained neural text representation techniques such as
BERT have achieved greater performance in several natural language processing
tasks. However, the potential for using these techniques to improve upon prior
approaches for automated bug triaging is not well studied or understood.
Therefore, in this paper we offer one of the first investigations that
fine-tunes transformer-based language models for the task of bug triaging on
four open source datasets, spanning a collective 53 years of development
history with over 400 developers and over 150 software project components. Our
study includes both a quantitative and qualitative analysis of effectiveness.
Our findings illustrate that DeBERTa is the most effective technique across the
triaging tasks of developer and component assignment, and the measured
performance delta is statistically significant compared to other techniques.
However, through our qualitative analysis, we also observe that each technique
possesses unique abilities best suited to certain types of bug reports.
- Abstract(参考訳): 多くの場合、バグレポートを管理する最初のステップは、バグを理解し、ローカライズし、修正するのに最適な適切な開発者にバグをトリアージすることだ。
さらに、ソフトウェアプロジェクトの特定の部分に特定のバグを割り当てることは、修正プロセスの迅速化に役立ちます。
しかしながら、これらの活動の重要性にもかかわらず、手動のトリージングプロセスに数日を費やすことができるため、非常に困難である。
過去の研究では、バグレポートの限られたテキストデータを活用して、このプロセスを自動化したテキスト分類モデルのトレーニングを試みた。
しかしながら、先行作業で使用されるテキスト表現と機械学習モデルは、表現力によって制限され、しばしばトリアージプロセスに役立ちそうなニュアンスなテキストパターンをキャプチャできない。
近年、BERTのような大きなトランスフォーマーベースで事前訓練されたニューラルテキスト表現技術は、自然言語処理タスクにおいてより優れたパフォーマンスを実現している。
しかし、これらの技術を用いて自動バグトリアージの事前アプローチを改善する可能性は十分に研究されていない。
そこで本稿では,400人以上の開発者と150以上のソフトウェアプロジェクトコンポーネントを抱える53年に及ぶ開発履歴にまたがる,4つのオープンソースデータセットのバグトリアージ作業のための,ファイントゥーントランスフォーマーベースの言語モデルについて,最初の調査を行った。
本研究は有効性の定量的および定性的な分析を含む。
以上の結果から,DeBERTaはディベロッパとコンポーネントのトリアージ作業において最も有効な手法であり,測定結果の差は他の手法と比較して統計的に有意であることがわかった。
しかし,我々は質的分析を通じて,それぞれの手法が特定の種類のバグレポートに最も適したユニークな能力を持っていることを確かめた。
関連論文リスト
- Supporting Cross-language Cross-project Bug Localization Using Pre-trained Language Models [2.5121668584771837]
既存のテクニックは、アプリケーション固有のデータに依存しているため、一般化性とデプロイメントに苦労することが多い。
本稿では,プロジェクトと言語の境界を超越したバグローカライゼーションのための,PLMに基づく新しい言語モデルを提案する。
論文 参考訳(メタデータ) (2024-07-03T01:09:36Z) - FacTool: Factuality Detection in Generative AI -- A Tool Augmented
Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。
大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:51Z) - WeCheck: Strong Factual Consistency Checker via Weakly Supervised
Learning [40.5830891229718]
本稿では,複数のリソースを集約して,正確かつ効率的な実測値(WeCheck)をトレーニングする,弱教師付きフレームワークを提案する。
様々なタスクに関する総合的な実験は、平均してTRUEベンチマークにおける従来の最先端手法よりも3.4%の絶対的な改善を実現するWeCheckの強い性能を示す。
論文 参考訳(メタデータ) (2022-12-20T08:04:36Z) - Grammatical Error Correction: A Survey of the State of the Art [15.174807142080187]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、テキスト中のエラーを自動的に検出し、修正するタスクである。
この分野は過去10年間で大きな進歩を遂げており、一部は5つの共有タスクによって動機付けられている。
論文 参考訳(メタデータ) (2022-11-09T19:34:38Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - On Decoding Strategies for Neural Text Generators [73.48162198041884]
言語生成タスクと復号化戦略の相互作用について検討する。
生成したテキストの属性の変化をデコード戦略とタスクの両方の関数として測定する。
以上の結果から,これまで観察された結果と意外な結果の両方が明らかとなった。
論文 参考訳(メタデータ) (2022-03-29T16:25:30Z) - What to Prioritize? Natural Language Processing for the Development of a
Modern Bug Tracking Solution in Hardware Development [0.0]
我々は、異なる教師付き機械学習アルゴリズムを用いて、バグレポートの修正時間、リスク、複雑さを予測するアプローチを提案する。
評価の結果,Universal Sentenceモデルによって生成されたテキスト埋め込みの組み合わせは,他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-09-28T15:55:10Z) - Generating Bug-Fixes Using Pretrained Transformers [11.012132897417592]
実世界のgithubからマイニングしたjavaメソッドのバグの検出と修正を学ぶ,データ駆動型プログラム修復手法を導入する。
ソースコードプログラムの事前トレーニングは,スクラッチからの教師ありトレーニングに比べて,33%のパッチ数を改善することを示す。
我々は,標準精度評価基準を非削除および削除のみの修正に洗練し,我々の最良モデルが従来よりも75%多くの非削除修正を生成することを示す。
論文 参考訳(メタデータ) (2021-04-16T05:27:04Z) - Exploring and Predicting Transferability across NLP Tasks [115.6278033699853]
本研究では,33のNLPタスク間の伝達可能性について検討した。
以上の結果から,転帰学習は従来考えられていたよりも有益であることが示唆された。
また,特定の対象タスクに対して最も転送可能なソースタスクを予測するために使用できるタスク埋め込みも開発した。
論文 参考訳(メタデータ) (2020-05-02T09:39:36Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。