論文の概要: Milestones in Bengali Sentiment Analysis leveraging Transformer-models:
Fundamentals, Challenges and Future Directions
- arxiv url: http://arxiv.org/abs/2401.07847v1
- Date: Mon, 15 Jan 2024 17:23:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:23:13.206733
- Title: Milestones in Bengali Sentiment Analysis leveraging Transformer-models:
Fundamentals, Challenges and Future Directions
- Title(参考訳): トランスフォーマーモデルを活用したベンガル感情分析におけるマイルストーン:基本,課題,今後の方向性
- Authors: Saptarshi Sengupta, Shreya Ghosh, Prasenjit Mitra, Tarikul Islam
Tamiti
- Abstract要約: 感性分析(英語: Sentiment Analysis、SA)とは、テキストにビューの極性を関連付けるタスクである。
本稿では,ベンガルにおけるSAのSOTA分析,特にTransformerベースのモデルについて述べる。
- 参考スコア(独自算出の注目度): 5.931242601117219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment Analysis (SA) refers to the task of associating a view polarity
(usually, positive, negative, or neutral; or even fine-grained such as slightly
angry, sad, etc.) to a given text, essentially breaking it down to a supervised
(since we have the view labels apriori) classification task. Although heavily
studied in resource-rich languages such as English thus pushing the SOTA by
leaps and bounds, owing to the arrival of the Transformer architecture, the
same cannot be said for resource-poor languages such as Bengali (BN). For a
language spoken by roughly 300 million people, the technology enabling them to
run trials on their favored tongue is severely lacking. In this paper, we
analyze the SOTA for SA in Bengali, particularly, Transformer-based models. We
discuss available datasets, their drawbacks, the nuances associated with
Bengali i.e. what makes this a challenging language to apply SA on, and finally
provide insights for future direction to mitigate the limitations in the field.
- Abstract(参考訳): 感性分析(英: Sentiment Analysis、SA)とは、あるテキストに視極性(通常、肯定的、否定的、あるいは中立的)を関連付けるタスクであり、基本的には監督された(ビューラベルを持つ)分類タスクに分解するものである。
英語などの資源に富んだ言語では、トランスフォーマーアーキテクチャーの登場によりSOTAが飛躍と限界によって押し上げられるように研究されているが、ベンガル語(BN)のような資源に乏しい言語では、そうは言えない。
約3億人が話す言語にとって、彼らが好意的な舌で試用できる技術は非常に不足している。
本稿では,ベンガルにおけるSAのSOTA解析,特にトランスフォーマーモデルについて述べる。
利用可能なデータセット、その欠点、Bengaliに関連するニュアンス、すなわち、SAをオンにするのが難しい言語であること、そして最後に、フィールドの制限を軽減するための今後の方向性に関する洞察を提供する。
関連論文リスト
- A Multilingual Sentiment Lexicon for Low-Resource Language Translation using Large Languages Models and Explainable AI [0.0]
南アフリカとDRCは、ズールー語、セペディ語、アフリカーンス語、フランス語、英語、ツィルバ語などの言語と共に複雑な言語景観を呈している。
この研究はフランス語とツィルバ語用に設計された多言語辞書を開発し、英語、アフリカーンス語、セペディ語、ズールー語への翻訳を含むように拡張された。
総合的なテストコーパスは、感情を予測するためにトレーニングされた機械学習モデルを使用して、翻訳と感情分析タスクをサポートするために作成される。
論文 参考訳(メタデータ) (2024-11-06T23:41:18Z) - Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance [6.907734681124986]
本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。
Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。
論文 参考訳(メタデータ) (2024-06-17T01:54:27Z) - Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。
提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。
アラビアサデータセットの公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-09-24T19:26:53Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Emotion Classification in a Resource Constrained Language Using
Transformer-based Approach [2.8101673772585736]
本研究は,ベンガルテキストを6つの基本的な感情の1つに分類するトランスフォーマティブベース手法を提案する。
分類作業のために6243のテキストからなるベンガル感情コーパスを開発した。
論文 参考訳(メタデータ) (2021-04-17T18:28:39Z) - DeepHateExplainer: Explainable Hate Speech Detection in Under-resourced
Bengali Language [1.2246649738388389]
ベンガル語からのヘイトスピーチ検出のための説明可能なアプローチを提案する。
我々のアプローチでは、ベンガルのテキストは、政治的、個人的、地政学的、宗教的憎悪に分類する前に、最初に包括的に前処理される。
機械学習(線形および木ベースのモデル)およびディープニューラルネットワーク(CNN、Bi-LSTM、Conv-LSTMなどの単語埋め込み)に対する評価は、それぞれ政治的、個人的、地政学的、宗教的憎悪に対して、F1スコアは84%、90%、88%、88%である。
論文 参考訳(メタデータ) (2020-12-28T16:46:03Z) - Sentiment analysis in Bengali via transfer learning using multi-lingual
BERT [0.9883261192383611]
本稿では,ベンガルで手動でタグ付けされた2クラスと3クラスのSAデータセットを提示する。
また、関連する拡張を伴う多言語BERTモデルが、転送学習のアプローチによって訓練可能であることも実証した。
この深層学習モデルは,現在最先端の68%と比較して,2階級の感情分類において71%の精度を達成している。
論文 参考訳(メタデータ) (2020-12-03T10:21:11Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。