論文の概要: Enhancing Sentiment Analysis in Bengali Texts: A Hybrid Approach Using Lexicon-Based Algorithm and Pretrained Language Model Bangla-BERT
- arxiv url: http://arxiv.org/abs/2411.19584v1
- Date: Fri, 29 Nov 2024 09:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:19:22.332976
- Title: Enhancing Sentiment Analysis in Bengali Texts: A Hybrid Approach Using Lexicon-Based Algorithm and Pretrained Language Model Bangla-BERT
- Title(参考訳): ベンガル文字の知覚分析の強化:辞書ベースアルゴリズムと事前学習言語モデルBangla-BERTを用いたハイブリッドアプローチ
- Authors: Hemal Mahmud, Hasan Mahmud,
- Abstract要約: 我々はルールベースのアルゴリズムと事前学習された言語モデルを統合する新しいアプローチを開発する。
そこで我々は,Bangla Sentiment Polarity Score (BSPS) という新しいアルゴリズムを開発した。
分析の結果,BSPS+BanglaBERTハイブリッドアプローチは,BanglaBERTモデルよりも高い精度,精度,ニュアンス分類が得られた。
- 参考スコア(独自算出の注目度): 1.688134675717698
- License:
- Abstract: Sentiment analysis (SA) is a process of identifying the emotional tone or polarity within a given text and aims to uncover the user's complex emotions and inner feelings. While sentiment analysis has been extensively studied for languages like English, research in Bengali, remains limited, particularly for fine-grained sentiment categorization. This work aims to connect this gap by developing a novel approach that integrates rule-based algorithms with pre-trained language models. We developed a dataset from scratch, comprising over 15,000 manually labeled reviews. Next, we constructed a Lexicon Data Dictionary, assigning polarity scores to the reviews. We developed a novel rule based algorithm Bangla Sentiment Polarity Score (BSPS), an approach capable of generating sentiment scores and classifying reviews into nine distinct sentiment categories. To assess the performance of this method, we evaluated the classified sentiments using BanglaBERT, a pre-trained transformer-based language model. We also performed sentiment classification directly with BanglaBERT on the original data and evaluated this model's results. Our analysis revealed that the BSPS + BanglaBERT hybrid approach outperformed the standalone BanglaBERT model, achieving higher accuracy, precision, and nuanced classification across the nine sentiment categories. The results of our study emphasize the value and effectiveness of combining rule-based and pre-trained language model approaches for enhanced sentiment analysis in Bengali and suggest pathways for future research and application in languages with similar linguistic complexities.
- Abstract(参考訳): 感性分析(英: Sentiment Analysis、SA)とは、あるテキスト中の感情のトーンや極性を特定するプロセスであり、ユーザの複雑な感情や内的感情を明らかにすることを目的としている。
感情分析は英語などの言語で広く研究されているが、ベンガル語の研究は、特に微粒な感情分類のために限られている。
この研究は、ルールベースのアルゴリズムと事前学習された言語モデルを統合する新しいアプローチを開発することで、このギャップを埋めることを目的としている。
15,000以上のレビューを手作業でラベル付けしたデータセットをスクラッチから開発しました。
次に、レキシコンデータ辞書を構築し、レビューに極性スコアを割り当てた。
そこで我々は,Bangla Sentiment Polarity Score (BSPS) という新しいアルゴリズムを開発した。
本手法の性能を評価するために,事前学習したトランスフォーマーベース言語モデルであるBanglaBERTを用いた分類感情の評価を行った。
また,BanglaBERTを用いて感情分類を行い,その結果について検討した。
分析の結果,BSPS+BanglaBERTハイブリッドアプローチは,BanglaBERTモデルよりも高い精度,精度,ニュアンス分類が得られた。
本研究の結果は,ベンガル語における感情分析の強化のためのルールベースと事前学習言語モデルを組み合わせることの価値と有効性を強調し,同様の言語複雑度を持つ言語における将来の研究と応用の道筋を提案する。
関連論文リスト
- SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - RSM-NLP at BLP-2023 Task 2: Bangla Sentiment Analysis using Weighted and
Majority Voted Fine-Tuned Transformers [2.048226951354646]
本稿では,BLP Workshop - Sentiment Analysis of Bangla Social Media Postsで行った投稿に対するアプローチについて述べる。
マルチクラス分類タスクでは0.711, 共有タスクでは10位となった。
論文 参考訳(メタデータ) (2023-10-22T10:55:56Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Sentiment Classification of Code-Switched Text using Pre-trained
Multilingual Embeddings and Segmentation [1.290382979353427]
コード切替型感情分析のための多段階自然言語処理アルゴリズムを提案する。
提案アルゴリズムは、人間の専門知識に制限のある複数の言語の感情分析のために拡張することができる。
論文 参考訳(メタデータ) (2022-10-29T01:52:25Z) - Sentiment-Aware Word and Sentence Level Pre-training for Sentiment
Analysis [64.70116276295609]
SentiWSPは、WordレベルとSentenceレベルの事前トレーニングタスクを組み合わせた、Sentiment対応の事前トレーニング言語モデルである。
SentiWSPは、様々な文レベルおよびアスペクトレベルの感情分類ベンチマーク上で、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T12:25:29Z) - Sentiment Analysis on Brazilian Portuguese User Reviews [0.0]
本研究は,システム結果の極性を仮定して,文書埋め込み戦略の予測性能を解析する。
この分析には、単一のデータセットに統合されたブラジルの5つの感情分析データセットと、トレーニング、テスト、バリデーションセットの参照パーティショニングが含まれている。
論文 参考訳(メタデータ) (2021-12-10T11:18:26Z) - Arabic aspect based sentiment analysis using BERT [0.0]
本稿では、BERTのような事前訓練された言語モデルからのコンテキスト埋め込みのモデリング機能について述べる。
我々は、このタスクに対処するために、シンプルだが効果的なBERTベースの神経ベースラインを構築しています。
実験結果によると, 単純な線形分類層を持つBERTアーキテクチャは, 最先端の成果を上回った。
論文 参考訳(メタデータ) (2021-07-28T11:34:00Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Classification Benchmarks for Under-resourced Bengali Language based on
Multichannel Convolutional-LSTM Network [3.0168410626760034]
われわれはBengFastTextという2億5000万記事をベースに、これまでで最大のベンガル語埋め込みモデルを構築している。
単語の埋め込みを多チャンネル畳み込み-LSTMネットワークに組み込んで、さまざまなタイプのヘイトスピーチ、文書分類、感情分析を予測する。
論文 参考訳(メタデータ) (2020-04-11T22:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。