論文の概要: BERT Fine-Tuning for Sentiment Analysis on Indonesian Mobile Apps
Reviews
- arxiv url: http://arxiv.org/abs/2107.06802v1
- Date: Wed, 14 Jul 2021 16:00:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 17:10:26.249866
- Title: BERT Fine-Tuning for Sentiment Analysis on Indonesian Mobile Apps
Reviews
- Title(参考訳): BERT Fine-Tuning for Sentiment Analysis on Indonesian Mobile Apps Reviews
- Authors: Kuncahyo Setyo Nugroho, Anantha Yullian Sukmadewa, Haftittah
Wuswilahaken DW, Fitra Abdurrachman Bachtiar, Novanto Yudistira
- Abstract要約: 本研究では,2種類の事前学習モデルを用いた感情分析における細調整BERTの有効性について検討した。
使用されるデータセットは、インドネシアのGoogle Playサイトで2020年のトップ10アプリのユーザーレビューである。
また,2つのトレーニングデータラベリング手法を用いて,スコアベースとレキシコンベースのモデルの有効性を検証した。
- 参考スコア(独自算出の注目度): 1.5749416770494706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User reviews have an essential role in the success of the developed mobile
apps. User reviews in the textual form are unstructured data, creating a very
high complexity when processed for sentiment analysis. Previous approaches that
have been used often ignore the context of reviews. In addition, the relatively
small data makes the model overfitting. A new approach, BERT, has been
introduced as a transfer learning model with a pre-trained model that has
previously been trained to have a better context representation. This study
examines the effectiveness of fine-tuning BERT for sentiment analysis using two
different pre-trained models. Besides the multilingual pre-trained model, we
use the pre-trained model that only has been trained in Indonesian. The dataset
used is Indonesian user reviews of the ten best apps in 2020 in Google Play
sites. We also perform hyper-parameter tuning to find the optimum trained
model. Two training data labeling approaches were also tested to determine the
effectiveness of the model, which is score-based and lexicon-based. The
experimental results show that pre-trained models trained in Indonesian have
better average accuracy on lexicon-based data. The pre-trained Indonesian model
highest accuracy is 84%, with 25 epochs and a training time of 24 minutes.
These results are better than all of the machine learning and multilingual
pre-trained models.
- Abstract(参考訳): ユーザレビューは、開発中のモバイルアプリの成功に不可欠な役割を持つ。
テキスト形式のユーザレビューは構造化されていないデータであり、感情分析のために処理されると非常に複雑になる。
これまで使われてきたアプローチはレビューの文脈を無視することが多い。
さらに、比較的小さなデータによって、モデルは過度に適合する。
新たなアプローチであるBERTは、以前より優れたコンテキスト表現を持つように訓練されたトレーニング済みのモデルで、転送学習モデルとして導入された。
本研究では,2種類の事前学習モデルを用いた感情分析における細調整BERTの有効性を検討した。
多言語事前学習モデルに加えて,インドネシアでのみ訓練された事前学習モデルを用いる。
使用されるデータセットは、インドネシアのGoogle Playサイトで2020年のトップ10アプリのユーザーレビューである。
最適なトレーニングモデルを見つけるために、ハイパーパラメータチューニングも行います。
2つのトレーニングデータラベリング手法を用いて,スコアベースとレキシコンベースのモデルの有効性を検証した。
インドネシアで訓練された事前訓練モデルでは,レキシコンデータの平均精度が向上した。
事前訓練されたインドネシアのモデルは84%の精度で、25のエポックと24分間のトレーニング時間を持つ。
これらの結果は、機械学習や多言語事前学習モデルよりも優れている。
関連論文リスト
- Reuse, Don't Retrain: A Recipe for Continued Pretraining of Language Models [29.367678364485794]
本稿では,言語モデルの事前学習を継続する上で,効率的なデータ分布と学習率スケジュールを設計する方法を示す。
プレトレーニングセットにおける継続トレーニングのベースラインと比較すると,平均モデル精度は9%向上した。
論文 参考訳(メタデータ) (2024-07-09T22:37:59Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Natural Language Processing Through Transfer Learning: A Case Study on
Sentiment Analysis [1.14219428942199]
本稿では,感情分析を中心に自然言語処理における伝達学習の可能性について考察する。
その主張は、スクラッチからのトレーニングモデルと比較して、事前訓練されたBERTモデルを使用したトランスファーラーニングは、感情分類の精度を向上できるというものである。
論文 参考訳(メタデータ) (2023-11-28T17:12:06Z) - Investigating Pre-trained Language Models on Cross-Domain Datasets, a
Step Closer to General AI [0.8889304968879164]
本研究では、事前学習された言語モデルが、異なる非言語タスクに一般化する能力について検討する。
私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
論文 参考訳(メタデータ) (2023-06-21T11:55:17Z) - Effective Robustness against Natural Distribution Shifts for Models with
Different Training Data [113.21868839569]
効果的ロバスト性」は、分配内(ID)性能から予測できる以上の余分な分配外ロバスト性を測定する。
異なるデータに基づいてトレーニングされたモデルの有効ロバスト性を評価・比較するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-02-02T19:28:41Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - How much pretraining data do language models need to learn syntax? [12.668478784932878]
トランスフォーマーに基づく事前訓練型言語モデルは、多くのよく知られたNLUベンチマークにおいて優れた結果を得る。
本稿では,RoBERTaを用いたモデル知識に対する事前学習データサイズの影響について検討する。
論文 参考訳(メタデータ) (2021-09-07T15:51:39Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - SE3M: A Model for Software Effort Estimation Using Pre-trained Embedding
Models [0.8287206589886881]
本稿では,事前学習した埋め込みモデルの有効性を評価する。
両方のアプローチでトレーニング済みのジェネリックモデルは、微調整プロセスを経ている。
テスト結果は非常に有望で、事前トレーニングされたモデルを使用して、要求テキストのみに基づいてソフトウェアの労力を見積もることができることに気付きました。
論文 参考訳(メタデータ) (2020-06-30T14:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。