論文の概要: CatIss: An Intelligent Tool for Categorizing Issues Reports using
Transformers
- arxiv url: http://arxiv.org/abs/2203.17196v1
- Date: Thu, 31 Mar 2022 17:20:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 14:11:22.890228
- Title: CatIss: An Intelligent Tool for Categorizing Issues Reports using
Transformers
- Title(参考訳): CatIss: 変圧器を用いた問題レポートの分類ツール
- Authors: Maliheh Izadi
- Abstract要約: CatIssはTransformerベースのトレーニング済みRoBERTaモデル上に構築されたISSueレポートの自動CATegorizerである。
CatIssは、イシューレポートを、バグレポート、強化/機能要求、質問の3つの主要なカテゴリに分類する。
- 参考スコア(独自算出の注目度): 0.8122270502556374
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Users use Issue Tracking Systems to keep track and manage issue reports in
their repositories. An issue is a rich source of software information that
contains different reports including a problem, a request for new features, or
merely a question about the software product. As the number of these issues
increases, it becomes harder to manage them manually. Thus, automatic
approaches are proposed to help facilitate the management of issue reports.
This paper describes CatIss, an automatic CATegorizer of ISSue reports which
is built upon the Transformer-based pre-trained RoBERTa model. CatIss
classifies issue reports into three main categories of Bug reports,
Enhancement/feature requests, and Questions. First, the datasets provided for
the NLBSE tool competition are cleaned and preprocessed. Then, the pre-trained
RoBERTa model is fine-tuned on the preprocessed dataset. Evaluating CatIss on
about 80 thousand issue reports from GitHub, indicates that it performs very
well surpassing the competition baseline, TicketTagger, and achieving 87.2%
F1-score (micro average). Additionally, as CatIss is trained on a wide set of
repositories, it is a generic prediction model, hence applicable for any unseen
software project or projects with little historical data. Scripts for cleaning
the datasets, training CatIss, and evaluating the model are publicly available.
- Abstract(参考訳): ユーザはリポジトリ内のイシューレポートの追跡と管理にイシュートラッキングシステムを使用する。
問題とは,問題や新機能の要求,あるいは単にソフトウェア製品に関する質問を含む,さまざまなレポートを含む,豊富なソフトウェア情報のソースである。
これらの問題の数が増えると、手動で管理することが難しくなります。
そこで,問題報告の管理を支援するために,自動アプローチを提案する。
本稿では,Transformer-based pre-trained RoBERTaモデルに基づく,ISSueレポートの自動CATegorizerであるCatIssについて述べる。
CatIssは発行レポートを、バグレポート、強化/機能要求、質問の3つの主要なカテゴリに分類する。
まず、NLBSEツールコンペのために提供されるデータセットをクリーン化し、前処理する。
そして、事前訓練されたRoBERTaモデルを、前処理されたデータセットに微調整する。
githubから約8万のイシューレポートでcatissを評価した結果、競合ベースラインであるtickettaggerを非常に上回っており、87.2%のf1-score(マイクロ平均)を達成した。
さらに、CatIssは幅広いリポジトリで訓練されているため、一般的な予測モデルであり、見知らぬソフトウェアプロジェクトや、歴史的なデータはほとんどないプロジェクトに適用できる。
データセットのクリーニング、CatIssのトレーニング、モデルの評価のためのスクリプトが公開されている。
関連論文リスト
- AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models [84.65095045762524]
3つのデシラタを言語モデルのための優れたベンチマークとして提示する。
ベンチマークでは、以前のベンチマークでは示されていなかったモデルランキングの新しいトレンドが明らかになった。
AutoBencherを使って、数学、多言語、知識集約的な質問応答のためのデータセットを作成しています。
論文 参考訳(メタデータ) (2024-07-11T10:03:47Z) - KET-QA: A Dataset for Knowledge Enhanced Table Question Answering [63.56707527868466]
本研究では,TableQAの外部知識源として知識ベース(KB)を用いることを提案する。
すべての質問は、答えるテーブルとサブグラフの両方からの情報を統合する必要がある。
我々は,膨大な知識サブグラフから関連する情報を抽出するために,レトリバー・レゾナー構造パイプラインモデルを設計する。
論文 参考訳(メタデータ) (2024-05-13T18:26:32Z) - MaintainoMATE: A GitHub App for Intelligent Automation of Maintenance
Activities [3.2228025627337864]
ソフトウェア開発プロジェクトは、バグ報告や強化要求といったメンテナンスタスクの追跡の中心にある問題追跡システムに依存している。
問題レポートの処理は極めて重要であり、問題レポートに入力されたテキストを徹底的にスキャンする必要があるため、労働集約的な作業となる。
各カテゴリのイシューレポートを自動的に分類し,関連する専門知識を持つ開発者にイシューレポートを割り当てることのできる,MaintainoMATEという統合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-31T05:15:42Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Auto-labelling of Bug Report using Natural Language Processing [0.0]
ルールとクエリベースのソリューションは、明確なランキングのない、潜在的な類似バグレポートの長いリストを推奨します。
本論文では,NLP手法の組み合わせによる解を提案する。
カスタムデータトランスフォーマー、ディープニューラルネットワーク、および非汎用機械学習メソッドを使用して、既存の同一バグレポートを検索する。
論文 参考訳(メタデータ) (2022-12-13T02:32:42Z) - Automatic Classification of Bug Reports Based on Multiple Text
Information and Reports' Intention [37.67372105858311]
本稿では,バグレポートの自動分類手法を提案する。
イノベーションは、バグレポートを分類する際に、レポートのテキスト情報に加えて、レポートの意図も考慮することである。
提案手法は性能が向上し,F-Measureは87.3%から95.5%に向上した。
論文 参考訳(メタデータ) (2022-08-02T06:44:51Z) - Parameter-Efficient Abstractive Question Answering over Tables or Text [60.86457030988444]
QAシステムを求める情報の長期的な野望は、マルチモーダルなコンテキストを推論し、ユーザクエリに対する自然な回答を生成することである。
メモリ集約型事前学習言語モデルは、構造化されていないテキストや構造化テーブルのような特定のモードでQAデータ上のモデルを微調整することで、QAのような下流タスクに適応する。
パラメータ効率の良いアダプタは、トランス層間の小さなタスク固有のボトルネック層を加算し、訓練する。
論文 参考訳(メタデータ) (2022-04-07T10:56:29Z) - Automatic Issue Classifier: A Transfer Learning Framework for
Classifying Issue Reports [0.0]
私たちはRoBERTaと呼ばれる既製のニューラルネットワークを使って、問題を分類しています。
本稿では,問題レポートを複数ラベル設定で分類するアプローチを提案する。我々はRoBERTaと呼ばれる市販のニューラルネットワークを用いて,問題レポートの分類を行う。
論文 参考訳(メタデータ) (2022-02-12T21:43:08Z) - S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。
BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。
私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文 参考訳(メタデータ) (2021-03-18T21:10:41Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。