論文の概要: BanglaBook: A Large-scale Bangla Dataset for Sentiment Analysis from
Book Reviews
- arxiv url: http://arxiv.org/abs/2305.06595v3
- Date: Thu, 8 Jun 2023 08:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 19:03:06.278293
- Title: BanglaBook: A Large-scale Bangla Dataset for Sentiment Analysis from
Book Reviews
- Title(参考訳): BanglaBook: 書籍レビューからの感性分析のための大規模バングラデータセット
- Authors: Mohsinul Kabir, Obayed Bin Mahfuz, Syed Rifat Raiyan, Hasan Mahmud and
Md Kamrul Hasan
- Abstract要約: 本稿では,バングラ書評の大規模データセットについて,肯定,否定,中立の3つのカテゴリに分類される158,065のサンプルからなる。
我々は、SVM、LSTM、Bangla-BERTなどのベースラインを確立するために、さまざまな機械学習モデルを使用します。
この結果から,手作業で作成する機能に依存したモデルよりも,事前訓練したモデルに対して,かなりの性能上の利点が示された。
- 参考スコア(独自算出の注目度): 1.869097450593631
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The analysis of consumer sentiment, as expressed through reviews, can provide
a wealth of insight regarding the quality of a product. While the study of
sentiment analysis has been widely explored in many popular languages,
relatively less attention has been given to the Bangla language, mostly due to
a lack of relevant data and cross-domain adaptability. To address this
limitation, we present BanglaBook, a large-scale dataset of Bangla book reviews
consisting of 158,065 samples classified into three broad categories: positive,
negative, and neutral. We provide a detailed statistical analysis of the
dataset and employ a range of machine learning models to establish baselines
including SVM, LSTM, and Bangla-BERT. Our findings demonstrate a substantial
performance advantage of pre-trained models over models that rely on manually
crafted features, emphasizing the necessity for additional training resources
in this domain. Additionally, we conduct an in-depth error analysis by
examining sentiment unigrams, which may provide insight into common
classification errors in under-resourced languages like Bangla. Our codes and
data are publicly available at https://github.com/mohsinulkabir14/BanglaBook.
- Abstract(参考訳): 消費者感情の分析は、レビューを通じて表現されるように、製品の品質に関する豊富な洞察を提供することができる。
感情分析の研究は多くのポピュラーな言語で広く研究されてきたが、バングラ語への関心は比較的少なかった。
この制限に対処するため、BanglaBookは158,065のサンプルを3つの広いカテゴリ(正、負、中性)に分類した、バングラ書評の大規模なデータセットである。
我々は、データセットの詳細な統計分析を行い、SVM、LSTM、Bangla-BERTなどのベースラインを確立するために、機械学習モデルを用いている。
本研究は,手作業で作成する機能に依存したモデルに対して,事前学習モデルの大幅な性能上の利点を示し,この領域における追加トレーニングリソースの必要性を強調した。
さらに,感情のユニグラムを調べることで詳細な誤り解析を行い,Banglaのような低リソース言語における共通分類誤りの洞察を与えることができる。
私たちのコードとデータはhttps://github.com/mohsinulkabir14/banglabookで公開されている。
関連論文リスト
- Enhancing Sentiment Analysis in Bengali Texts: A Hybrid Approach Using Lexicon-Based Algorithm and Pretrained Language Model Bangla-BERT [1.688134675717698]
我々はルールベースのアルゴリズムと事前学習された言語モデルを統合する新しいアプローチを開発する。
そこで我々は,Bangla Sentiment Polarity Score (BSPS) という新しいアルゴリズムを開発した。
分析の結果,BSPS+BanglaBERTハイブリッドアプローチは,BanglaBERTモデルよりも高い精度,精度,ニュアンス分類が得られた。
論文 参考訳(メタデータ) (2024-11-29T09:57:11Z) - Learning from Neighbors: Category Extrapolation for Long-Tail Learning [62.30734737735273]
より粒度の細かいデータセットは、データの不均衡の影響を受けにくい傾向があります。
既存のクラスと視覚的に類似したオープンセット補助クラスを導入し、頭と尾の両方の表現学習を強化することを目的とした。
補助授業の圧倒的な存在がトレーニングを混乱させるのを防ぐために,近隣のサイレンシング障害を導入する。
論文 参考訳(メタデータ) (2024-10-21T13:06:21Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Paloma: A Benchmark for Evaluating Language Model Fit [112.481957296585]
言語モデル (LM) の評価では、トレーニングから切り離されたモノリシックなデータに難易度が報告されるのが一般的である。
Paloma(Perplexity Analysis for Language Model Assessment)は、546の英語およびコードドメインに適合するLMを測定するベンチマークである。
論文 参考訳(メタデータ) (2023-12-16T19:12:45Z) - Zero- and Few-Shot Prompting with LLMs: A Comparative Study with Fine-tuned Models for Bangla Sentiment Analysis [6.471458199049549]
本研究では,33,606件のニュースツイートとFacebookコメントを含む手動注釈付きデータセットを提案する。
また,Flan-T5,GPT-4,Bloomzなどの言語モデルを用いて,ゼロショットと少数ショットのインコンテキスト学習についても検討した。
以上の結果から,モノリンガルトランスフォーマーに基づくモデルは,ゼロおよび少数ショットシナリオにおいても,他のモデルよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-21T15:19:10Z) - On Evaluation of Bangla Word Analogies [0.8658596218544772]
本稿では,Bangla単語の埋め込み品質を評価するための高品質なデータセットを提案する。
世界で7番目に普及した言語であるにもかかわらず、Banglaは低リソース言語であり、人気のあるNLPモデルはうまく機能しない。
論文 参考訳(メタデータ) (2023-04-10T14:27:35Z) - A Large Scale Search Dataset for Unbiased Learning to Rank [51.97967284268577]
我々は、非バイアス学習のためのBaidu-ULTRデータセットをランク付けする。
ランダムに12億の検索セッションと7,008のエキスパートアノテートクエリをサンプリングする。
1)本来のセマンティックな特徴と,使用が容易な事前学習言語モデル,(2)位置,表示高さ,抽象表現などの十分な表示情報,(3)居住時間のような検索結果ページ(SERP)に対するリッチなユーザフィードバックを提供する。
論文 参考訳(メタデータ) (2022-07-07T02:37:25Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Scaling Federated Learning for Fine-tuning of Large Language Models [0.5405981353784006]
フェデレートラーニング(FL)は、分散コンピューティングと分散データに対する有望なアプローチであり、法的フレームワークに対するプライバシーとコンプライアンスのレベルを提供する。
本稿では,トランスフォーマーに基づく言語モデルの,フェデレート学習環境における微調整について検討する。
タスク性能に対する分散計算の影響を評価するため,最大32のクライアント数に対して広範囲に調査を行った。
論文 参考訳(メタデータ) (2021-02-01T14:31:39Z) - Sentiment Classification in Bangla Textual Content: A Comparative Study [4.2394281761764]
本研究では,古典学習アルゴリズムと深層学習アルゴリズムの両方を用いて,公開されている感情ラベル付きデータセットと設計分類器について検討する。
以上の結果から,バングラではこれまで検討されていないトランスフォーマーモデルが,他のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-11-19T21:06:28Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。