論文の概要: Transfer Learning for Mining Feature Requests and Bug Reports from
Tweets and App Store Reviews
- arxiv url: http://arxiv.org/abs/2108.00663v1
- Date: Mon, 2 Aug 2021 06:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 15:13:37.739929
- Title: Transfer Learning for Mining Feature Requests and Bug Reports from
Tweets and App Store Reviews
- Title(参考訳): ツイートとApp Storeレビューによるマイニング機能要求とバグレポートの転送学習
- Authors: Pablo Restrepo Henao, Jannik Fischbach, Dominik Spies, Julian
Frattini, and Andreas Vogelsang
- Abstract要約: 既存のアプローチでは、リコールと許容精度の高い機能要求やバグレポートの検出に失敗している。
我々は単言語と多言語の両方のBERTモデルを訓練し、その性能を最先端の手法と比較する。
- 参考スコア(独自算出の注目度): 4.446419663487345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying feature requests and bug reports in user comments holds great
potential for development teams. However, automated mining of RE-related
information from social media and app stores is challenging since (1) about 70%
of user comments contain noisy, irrelevant information, (2) the amount of user
comments grows daily making manual analysis unfeasible, and (3) user comments
are written in different languages. Existing approaches build on traditional
machine learning (ML) and deep learning (DL), but fail to detect feature
requests and bug reports with high Recall and acceptable Precision which is
necessary for this task. In this paper, we investigate the potential of
transfer learning (TL) for the classification of user comments. Specifically,
we train both monolingual and multilingual BERT models and compare the
performance with state-of-the-art methods. We found that monolingual BERT
models outperform existing baseline methods in the classification of English
App Reviews as well as English and Italian Tweets. However, we also observed
that the application of heavyweight TL models does not necessarily lead to
better performance. In fact, our multilingual BERT models perform worse than
traditional ML methods.
- Abstract(参考訳): 機能要求とバグレポートをユーザコメントで特定することは、開発チームにとって大きな可能性を秘めている。
しかし,(1)ユーザコメントの約70%はノイズや無関係な情報を含むため,ソーシャルメディアやアプリストアからのRE関連情報の自動マイニングは困難であり,(2)ユーザコメントの量は日々増加し,手動による分析は不可能であり,(3)ユーザコメントは異なる言語で書かれる。
既存のアプローチは、従来の機械学習(ML)とディープラーニング(DL)をベースにしているが、この機能要求やバグレポートを高いリコールと許容精度で検出することができない。
本稿では,ユーザコメントの分類における転送学習(TL)の可能性について検討する。
具体的には,単言語モデルと多言語モデルの両方を訓練し,その性能を最先端手法と比較する。
モノリンガルBERTモデルは、英語およびイタリア語のつぶやきだけでなく、英語App Reviewsの分類において、既存のベースライン手法よりも優れていることがわかった。
しかし,重み付きTLモデルの適用が必ずしも性能向上につながるとは限らないことも確認した。
実際、我々の多言語BERTモデルは従来のML手法よりも性能が劣る。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - Evaluating the Effectiveness of Pre-trained Language Models in
Predicting the Helpfulness of Online Product Reviews [0.21485350418225244]
オンライン製品レビューの有用性を予測するため,RoBERTaとXLM-R言語モデルの比較を行った。
実験にはAmazonレビューデータセットを使用します。
論文 参考訳(メタデータ) (2023-02-19T18:22:59Z) - Cross-lingual Transfer Learning for Check-worthy Claim Identification
over Twitter [7.601937548486356]
ソーシャルメディアに拡散する誤報は、疑わしいインフォデミックになっている。
本稿では,多言語BERT(mBERT)モデルを用いて,5つの多言語対をまたいだ言語間チェックハーネス推定のための6つの手法を体系的に検討する。
以上の結果から,いくつかの言語対では,ゼロショットの言語間移動が可能であり,対象言語で訓練された単言語モデルに匹敵する性能が得られた。
論文 参考訳(メタデータ) (2022-11-09T18:18:53Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Mono vs Multilingual Transformer-based Models: a Comparison across
Several Language Tasks [1.2691047660244335]
BERT (Bidirectional Representations from Transformers) と ALBERT (A Lite BERT) は、言語モデルの事前学習方法である。
ポルトガルでトレーニングされたBERTとAlbertモデルを利用可能にしています。
論文 参考訳(メタデータ) (2020-07-19T19:13:20Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。