論文の概要: Emotion Classification in a Resource Constrained Language Using
Transformer-based Approach
- arxiv url: http://arxiv.org/abs/2104.08613v1
- Date: Sat, 17 Apr 2021 18:28:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:12:23.477520
- Title: Emotion Classification in a Resource Constrained Language Using
Transformer-based Approach
- Title(参考訳): トランスフォーマによる資源制約言語における感情分類
- Authors: Avishek Das, Omar Sharif, Mohammed Moshiul Hoque, Iqbal H. Sarker
- Abstract要約: 本研究は,ベンガルテキストを6つの基本的な感情の1つに分類するトランスフォーマティブベース手法を提案する。
分類作業のために6243のテキストからなるベンガル感情コーパスを開発した。
- 参考スコア(独自算出の注目度): 2.8101673772585736
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although research on emotion classification has significantly progressed in
high-resource languages, it is still infancy for resource-constrained languages
like Bengali. However, unavailability of necessary language processing tools
and deficiency of benchmark corpora makes the emotion classification task in
Bengali more challenging and complicated. This work proposes a
transformer-based technique to classify the Bengali text into one of the six
basic emotions: anger, fear, disgust, sadness, joy, and surprise. A Bengali
emotion corpus consists of 6243 texts is developed for the classification task.
Experimentation carried out using various machine learning (LR, RF, MNB, SVM),
deep neural networks (CNN, BiLSTM, CNN+BiLSTM) and transformer (Bangla-BERT,
m-BERT, XLM-R) based approaches. Experimental outcomes indicate that XLM-R
outdoes all other techniques by achieving the highest weighted $f_1$-score of
$69.73\%$ on the test data. The dataset is publicly available at
https://github.com/omar-sharif03/NAACL-SRW-2021.
- Abstract(参考訳): 高リソース言語では感情分類の研究が著しく進んでいるが、ベンガル語のようなリソース制約のある言語はまだ初期段階である。
しかし、必要な言語処理ツールやベンチマークコーパスの欠如は、ベンガルにおける感情分類タスクをより難しく複雑にする。
本研究は,ベンガル語のテキストを,怒り,恐怖,嫌悪,悲しみ,喜び,驚きの6つの基本的な感情の1つに分類するトランスフォーマティブに基づく手法を提案する。
分類作業のために6243のテキストからなるベンガル感情コーパスを開発した。
様々な機械学習(LR、RF、MNB、SVM)、ディープニューラルネットワーク(CNN、BiLSTM、CNN+BiLSTM)、トランスフォーマー(Bangla-BERT、m-BERT、XLM-R)を用いた実験を行った。
実験結果から、XLM-Rはテストデータ上で最も重み付けられた$f_1$-scoreの69.73\%を達成し、他のすべての技術より優れていることが示された。
データセットはhttps://github.com/omar-sharif03/NAACL-SRW-2021で公開されている。
関連論文リスト
- Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - SN Computer Science: Towards Offensive Language Identification for Tamil
Code-Mixed YouTube Comments and Posts [2.0305676256390934]
本研究では,複数の深層学習モデルを用いた広範囲な実験を行い,YouTube上の攻撃的コンテンツを検出するための伝達学習モデルを提案する。
そこで本研究では,多言語トランスフォーマーネットワークの微調整とエンハンスブルによるより良い結果を得るために,選択的翻訳と音読化技術の新しいフレキシブルなアプローチを提案する。
提案したULMFiTとmBERTBiLSTMは良好な結果を得た。
論文 参考訳(メタデータ) (2021-08-24T20:23:30Z) - DeepHateExplainer: Explainable Hate Speech Detection in Under-resourced
Bengali Language [1.2246649738388389]
ベンガル語からのヘイトスピーチ検出のための説明可能なアプローチを提案する。
我々のアプローチでは、ベンガルのテキストは、政治的、個人的、地政学的、宗教的憎悪に分類する前に、最初に包括的に前処理される。
機械学習(線形および木ベースのモデル)およびディープニューラルネットワーク(CNN、Bi-LSTM、Conv-LSTMなどの単語埋め込み)に対する評価は、それぞれ政治的、個人的、地政学的、宗教的憎悪に対して、F1スコアは84%、90%、88%、88%である。
論文 参考訳(メタデータ) (2020-12-28T16:46:03Z) - Bangla Text Classification using Transformers [2.3475904942266697]
テキスト分類はNLPの最も初期の問題の一つである。
本研究では,Banglaテキスト分類タスクのための多言語変換モデルを微調整する。
6つのベンチマークデータセットのアート結果の状態を把握し、前回の結果を5~29%の精度で改善する。
論文 参考訳(メタデータ) (2020-11-09T14:12:07Z) - It's not Greek to mBERT: Inducing Word-Level Translations from
Multilingual BERT [54.84185432755821]
mBERT (multilingual BERT) は、言語間での移動を可能にするリッチな言語間表現を学習する。
我々はmBERTに埋め込まれた単語レベルの翻訳情報について検討し、微調整なしで優れた翻訳能力を示す2つの簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-10-16T09:49:32Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Classification Benchmarks for Under-resourced Bengali Language based on
Multichannel Convolutional-LSTM Network [3.0168410626760034]
われわれはBengFastTextという2億5000万記事をベースに、これまでで最大のベンガル語埋め込みモデルを構築している。
単語の埋め込みを多チャンネル畳み込み-LSTMネットワークに組み込んで、さまざまなタイプのヘイトスピーチ、文書分類、感情分析を予測する。
論文 参考訳(メタデータ) (2020-04-11T22:17:04Z) - Deep Learning for Hindi Text Classification: A Comparison [6.8629257716723]
デヴァナガリ文字で書かれた形態的に豊かで低資源のヒンディー語を分類する研究は、大きなラベル付きコーパスがないために限られている。
本研究では,CNN,LSTM,注意に基づくモデル評価のために,英文データセットの翻訳版を用いた。
また,本論文は,一般的なテキスト分類手法のチュートリアルとしても機能する。
論文 参考訳(メタデータ) (2020-01-19T09:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。