論文の概要: Sentiment analysis in Bengali via transfer learning using multi-lingual
BERT
- arxiv url: http://arxiv.org/abs/2012.07538v1
- Date: Thu, 3 Dec 2020 10:21:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-24 00:12:02.207916
- Title: Sentiment analysis in Bengali via transfer learning using multi-lingual
BERT
- Title(参考訳): 多言語BERTを用いた移動学習によるベンガル語の知覚分析
- Authors: Khondoker Ittehadul Islam, Md. Saiful Islam and Md Ruhul Amin
- Abstract要約: 本稿では,ベンガルで手動でタグ付けされた2クラスと3クラスのSAデータセットを提示する。
また、関連する拡張を伴う多言語BERTモデルが、転送学習のアプローチによって訓練可能であることも実証した。
この深層学習モデルは,現在最先端の68%と比較して,2階級の感情分類において71%の精度を達成している。
- 参考スコア(独自算出の注目度): 0.9883261192383611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentiment analysis (SA) in Bengali is challenging due to this Indo-Aryan
language's highly inflected properties with more than 160 different inflected
forms for verbs and 36 different forms for noun and 24 different forms for
pronouns. The lack of standard labeled datasets in the Bengali domain makes the
task of SA even harder. In this paper, we present manually tagged 2-class and
3-class SA datasets in Bengali. We also demonstrate that the multi-lingual BERT
model with relevant extensions can be trained via the approach of transfer
learning over those novel datasets to improve the state-of-the-art performance
in sentiment classification tasks. This deep learning model achieves an
accuracy of 71\% for 2-class sentiment classification compared to the current
state-of-the-art accuracy of 68\%. We also present the very first Bengali SA
classifier for the 3-class manually tagged dataset, and our proposed model
achieves an accuracy of 60\%. We further use this model to analyze the
sentiment of public comments in the online daily newspaper. Our analysis shows
that people post negative comments for political or sports news more often,
while the religious article comments represent positive sentiment. The dataset
and code is publicly available at
https://github.com/KhondokerIslam/Bengali\_Sentiment.
- Abstract(参考訳): ベンガル語における感情分析(sa)は、このインド・アーリア語の高度に屈折した性質が160以上の動詞の屈折形と36種類の名詞と24種類の代名詞を持つため、困難である。
ベンガル領域における標準ラベル付きデータセットの欠如は、SAのタスクをさらに難しくする。
本稿では,bengaliの2クラスおよび3クラスのsaデータセットを手作業でタグ付けする。
また、関連する拡張を伴う多言語BERTモデルは、これらの新しいデータセットよりも伝達学習のアプローチにより、感情分類タスクにおける最先端のパフォーマンスを向上させることができることを示した。
この深層学習モデルは,現在最先端の68%と比較して,2クラス感情分類の精度が71.%である。
また、3 クラスの手動タグ付きデータセットに対する最初の bengali sa 分類器を提示し,提案手法により 60\% の精度を実現する。
さらにこのモデルを用いて、オンライン日刊紙における公開コメントの感情を分析する。
我々の分析によると、人々は政治やスポーツのニュースに対して否定的なコメントを投稿することが多い。
データセットとコードはhttps://github.com/KhondokerIslam/Bengali\_Sentimentで公開されている。
関連論文リスト
- ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Bengali Handwritten Grapheme Classification: Deep Learning Approach [0.0]
画像中のベンガルグラフの3つの構成要素を分類することが課題となるKaggleコンペティション citek_link に参加する。
我々は,Multi-Layer Perceptron(MLP)やResNet50の現状など,既存のニューラルネットワークモデルの性能について検討する。
そこで我々は,ベンガル語文法分類のための独自の畳み込みニューラルネットワーク(CNN)モデルを提案し,検証根の精度95.32%,母音の精度98.61%,子音の精度98.76%を示した。
論文 参考訳(メタデータ) (2021-11-16T06:14:59Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Simple or Complex? Learning to Predict Readability of Bengali Texts [6.860272388539321]
ベンガル語で書かれたテキストを解析できる可読性解析ツールを提案する。
2億3000万人のネイティブスピーカーを持つ世界で7番目に話されている言語であるにもかかわらず、ベンガル語は自然言語処理の基本的なリソースが不足している。
論文 参考訳(メタデータ) (2020-12-09T01:41:35Z) - BAN-ABSA: An Aspect-Based Sentiment Analysis dataset for Bengali and
it's baseline evaluation [0.8793721044482612]
本稿では,高品質なベンガル語データセットであるBAN-ABSAについて述べる。
データセットは、ベンガルの有名なニュースポータルから収集された9,009のユニークなコメントから、2,619のポジティブ、4,721のネガティブ、1,669の中立データサンプルで構成されている。
論文 参考訳(メタデータ) (2020-12-01T06:09:44Z) - Anubhuti -- An annotated dataset for emotional analysis of Bengali short
stories [2.3424047967193826]
アヌブティはベンガルの短編小説の著者が表現した感情を分析するための最初の、そして最大のテキストコーパスである。
本稿では,データ収集手法,手作業によるアノテーション処理,そして結果として生じるハイアノテータ間の合意について説明する。
我々は、ベースライン機械学習と感情分類のためのディープラーニングモデルを用いて、データセットの性能を検証した。
論文 参考訳(メタデータ) (2020-10-06T22:33:58Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Classification Benchmarks for Under-resourced Bengali Language based on
Multichannel Convolutional-LSTM Network [3.0168410626760034]
われわれはBengFastTextという2億5000万記事をベースに、これまでで最大のベンガル語埋め込みモデルを構築している。
単語の埋め込みを多チャンネル畳み込み-LSTMネットワークに組み込んで、さまざまなタイプのヘイトスピーチ、文書分類、感情分析を予測する。
論文 参考訳(メタデータ) (2020-04-11T22:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。