論文の概要: Sentiment Classification in Bangla Textual Content: A Comparative Study
- arxiv url: http://arxiv.org/abs/2011.10106v1
- Date: Thu, 19 Nov 2020 21:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 20:42:46.920372
- Title: Sentiment Classification in Bangla Textual Content: A Comparative Study
- Title(参考訳): バングラ語テキストコンテンツにおける感情分類--比較研究
- Authors: Md. Arid Hasan, Jannatul Tajrin, Shammur Absar Chowdhury, Firoj Alam
- Abstract要約: 本研究では,古典学習アルゴリズムと深層学習アルゴリズムの両方を用いて,公開されている感情ラベル付きデータセットと設計分類器について検討する。
以上の結果から,バングラではこれまで検討されていないトランスフォーマーモデルが,他のモデルよりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 4.2394281761764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment analysis has been widely used to understand our views on social and
political agendas or user experiences over a product. It is one of the cores
and well-researched areas in NLP. However, for low-resource languages, like
Bangla, one of the prominent challenge is the lack of resources. Another
important limitation, in the current literature for Bangla, is the absence of
comparable results due to the lack of a well-defined train/test split. In this
study, we explore several publicly available sentiment labeled datasets and
designed classifiers using both classical and deep learning algorithms. In our
study, the classical algorithms include SVM and Random Forest, and deep
learning algorithms include CNN, FastText, and transformer-based models. We
compare these models in terms of model performance and time-resource
complexity. Our finding suggests transformer-based models, which have not been
explored earlier for Bangla, outperform all other models. Furthermore, we
created a weighted list of lexicon content based on the valence score per
class. We then analyzed the content for high significance entries per class, in
the datasets. For reproducibility, we make publicly available data splits and
the ranked lexicon list. The presented results can be used for future studies
as a benchmark.
- Abstract(参考訳): 感情分析は、製品に対する社会的・政治的課題やユーザー体験に対する私たちの見解を理解するために広く使われてきた。
NLPのコアであり、よく研究されている領域の1つである。
しかしながら、Banglaのような低リソース言語では、リソースの不足が大きな課題のひとつです。
バングラの現在の文献におけるもうひとつの重要な制限は、列車/テストの分割が明確に定義されていないことによる比較結果の欠如である。
本研究では,いくつかの感情ラベル付きデータセットと,古典的および深層学習アルゴリズムを用いた分類器の設計について検討する。
本研究では,従来のアルゴリズムにはSVMとRandom Forestがあり,ディープラーニングアルゴリズムにはCNN,FastText,Transformerベースのモデルがある。
モデル性能と時間資源の複雑さの観点から、これらのモデルを比較します。
これまでのバングラでは研究されていないトランスフォーマーベースのモデルが、他のモデルよりも優れています。
さらに,各クラス毎の値スコアに基づいて,重み付き辞書内容のリストを作成した。
次に,データセット内のクラス毎の重要項目について分析を行った。
再現性のために、公開データ分割とランキングの辞書リストを作成します。
得られた結果は、ベンチマークとして将来の研究に使用できる。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - BanglaBook: A Large-scale Bangla Dataset for Sentiment Analysis from
Book Reviews [1.869097450593631]
本稿では,バングラ書評の大規模データセットについて,肯定,否定,中立の3つのカテゴリに分類される158,065のサンプルからなる。
我々は、SVM、LSTM、Bangla-BERTなどのベースラインを確立するために、さまざまな機械学習モデルを使用します。
この結果から,手作業で作成する機能に依存したモデルよりも,事前訓練したモデルに対して,かなりの性能上の利点が示された。
論文 参考訳(メタデータ) (2023-05-11T06:27:38Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - A Large Scale Search Dataset for Unbiased Learning to Rank [51.97967284268577]
我々は、非バイアス学習のためのBaidu-ULTRデータセットをランク付けする。
ランダムに12億の検索セッションと7,008のエキスパートアノテートクエリをサンプリングする。
1)本来のセマンティックな特徴と,使用が容易な事前学習言語モデル,(2)位置,表示高さ,抽象表現などの十分な表示情報,(3)居住時間のような検索結果ページ(SERP)に対するリッチなユーザフィードバックを提供する。
論文 参考訳(メタデータ) (2022-07-07T02:37:25Z) - Empirical evaluation of shallow and deep learning classifiers for Arabic
sentiment analysis [1.1172382217477126]
本研究は、アラビア語レビューの感情分析のためのディープラーニングモデルの性能を詳細に比較したものである。
この研究で使用されるデータセットは、アラビア語のホテルと本レビューデータセットである。
その結果,2次・複数ラベル分類では深層学習が浅層学習より優れており,文献で報告された同様の研究結果とは対照的であった。
論文 参考訳(メタデータ) (2021-12-01T14:45:43Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Bangla Text Classification using Transformers [2.3475904942266697]
テキスト分類はNLPの最も初期の問題の一つである。
本研究では,Banglaテキスト分類タスクのための多言語変換モデルを微調整する。
6つのベンチマークデータセットのアート結果の状態を把握し、前回の結果を5~29%の精度で改善する。
論文 参考訳(メタデータ) (2020-11-09T14:12:07Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。