論文の概要: Can GitHub Issues Help in the App Review Classifications?
- arxiv url: http://arxiv.org/abs/2308.14211v1
- Date: Sun, 27 Aug 2023 22:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 12:27:46.141651
- Title: Can GitHub Issues Help in the App Review Classifications?
- Title(参考訳): GitHubの課題はアプリレビューの分類に役立つか?
- Authors: Yasaman Abedini and Abbas Heydarnoori
- Abstract要約: 本稿では,GitHubイシュートラッキングシステムなどの追加ソースからの情報を活用することで,より一般化可能なモデルをトレーニングするアプローチを提案する。
まず、イシューラベルを調べることにより、レビュー意図(バグレポート、機能要求など)に関する問題を特定する。
そして,課題を解析し,対象情報を抽出する19の言語パターンを定義する。
- 参考スコア(独自算出の注目度): 0.87024326813104
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: App reviews reflect various user requirements that can aid in planning
maintenance tasks. Recently, proposed approaches for automatically classifying
user reviews rely on machine learning algorithms. Devine et al. demonstrated
that models trained on existing labeled datasets exhibit poor performance when
predicting new ones. Although integrating datasets improves the results to some
extent, there is still a need for greater generalizability to be taken into
consideration. Therefore, a comprehensive labeled dataset is essential to train
a more precise model. This paper introduces an approach to train a more
generalizable model by leveraging information from an additional source, such
as the GitHub issue tracking system, that contains valuable information about
user requirements. We propose an approach that assists in augmenting labeled
datasets by utilizing information extracted from GitHub issues. First, we
identify issues concerning review intentions (bug reports, feature requests,
and others) by examining the issue labels. Then, we analyze issue bodies and
define 19 language patterns for extracting targeted information. Finally, we
augment the manually labeled review dataset with a subset of processed issues
through the Within-App, Within-Context, and Between-App Analysis methods. The
first two methods train the app-specific models, and the last suits the
general-purpose models. We conducted several experiments to evaluate the
proposed approach. Our results demonstrate that using labeled issues for data
augmentation can improve the F1-score and recall to 13.9 and 29.9 in the bug
reports, respectively, and to 7.5 and 13.5 for feature requests. Furthermore,
we identify an effective volume range of 0.3 to 0.7, which provides better
performance improvements.
- Abstract(参考訳): アプリのレビューは、メンテナンスタスクの計画に役立つさまざまなユーザ要件を反映している。
近年,ユーザレビューの自動分類手法は機械学習アルゴリズムに依存している。
Devine氏らは、既存のラベル付きデータセットでトレーニングされたモデルは、新しいデータセットを予測する際のパフォーマンスが低いことを実証した。
データセットの統合は結果をある程度改善するが、考慮すべきさらなる一般化性は依然として必要である。
したがって、より正確なモデルのトレーニングには包括的なラベル付きデータセットが不可欠である。
本稿では,ユーザ要求に関する貴重な情報を含むgithub issue tracking systemなどの追加ソースからの情報を活用して,より一般化したモデルをトレーニングする手法を提案する。
GitHubイシューから抽出した情報を利用してラベル付きデータセットの強化を支援するアプローチを提案する。
まず、イシューラベルを調べることにより、レビュー意図(バグレポート、機能要求など)に関する問題を特定する。
そして,課題を解析し,対象情報を抽出する19の言語パターンを定義する。
最後に、手動でラベル付けされたレビューデータセットを、内部アプリケーション、内部コンテキスト、相互分析メソッドを通じて、処理された問題のサブセットで拡張します。
最初の2つの方法はアプリ固有のモデルをトレーニングし、最後の2つは汎用モデルに適合する。
提案手法を評価するため,いくつかの実験を行った。
以上の結果から,データ拡張にラベル付き問題を用いることで,F1スコアとリコールがそれぞれ13.9,29.9に向上し,機能要求に7.5,13.5となった。
さらに,0.3~0.7の有効ボリューム範囲を同定し,性能改善を実現した。
関連論文リスト
- Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - Towards a Data-Driven Requirements Engineering Approach: Automatic
Analysis of User Reviews [0.440401067183266]
我々は,フランス語の最先端言語モデルであるCamemBERTを用いて,自動解析を行う。
私たちはHealth & Fitness分野の3つのアプリケーションから6000のユーザレビューのマルチラベル分類データセットを作成しました。
結果は推奨され、新機能の要求に関するレビューを自動的に識別することが可能になることを示唆している。
論文 参考訳(メタデータ) (2022-06-29T14:14:54Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - Utilizing Textual Reviews in Latent Factor Models for Recommender
Systems [1.7361353199214251]
本稿では,テキストレビューに基づく評価モデリング手法とトピックモデリング手法を組み合わせたレコメンデーションアルゴリズムを提案する。
サイズが異なるAmazon.comデータセットを用いてアルゴリズムの性能を評価し,23の製品カテゴリに対応する。
論文 参考訳(メタデータ) (2021-11-16T15:07:51Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。