論文の概要: Classification Benchmarks for Under-resourced Bengali Language based on
Multichannel Convolutional-LSTM Network
- arxiv url: http://arxiv.org/abs/2004.07807v2
- Date: Sun, 19 Apr 2020 17:21:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 10:00:13.766508
- Title: Classification Benchmarks for Under-resourced Bengali Language based on
Multichannel Convolutional-LSTM Network
- Title(参考訳): マルチチャネル畳み込み-LSTMネットワークに基づくアンダーリソースベンガル言語の分類ベンチマーク
- Authors: Md. Rezaul Karim and Bharathi Raja Chakravarthi and John P. McCrae and
Michael Cochez
- Abstract要約: われわれはBengFastTextという2億5000万記事をベースに、これまでで最大のベンガル語埋め込みモデルを構築している。
単語の埋め込みを多チャンネル畳み込み-LSTMネットワークに組み込んで、さまざまなタイプのヘイトスピーチ、文書分類、感情分析を予測する。
- 参考スコア(独自算出の注目度): 3.0168410626760034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exponential growths of social media and micro-blogging sites not only provide
platforms for empowering freedom of expressions and individual voices but also
enables people to express anti-social behaviour like online harassment,
cyberbullying, and hate speech. Numerous works have been proposed to utilize
these data for social and anti-social behaviours analysis, document
characterization, and sentiment analysis by predicting the contexts mostly for
highly resourced languages such as English. However, there are languages that
are under-resources, e.g., South Asian languages like Bengali, Tamil, Assamese,
Telugu that lack of computational resources for the NLP tasks. In this paper,
we provide several classification benchmarks for Bengali, an under-resourced
language. We prepared three datasets of expressing hate, commonly used topics,
and opinions for hate speech detection, document classification, and sentiment
analysis, respectively. We built the largest Bengali word embedding models to
date based on 250 million articles, which we call BengFastText. We perform
three different experiments, covering document classification, sentiment
analysis, and hate speech detection. We incorporate word embeddings into a
Multichannel Convolutional-LSTM (MConv-LSTM) network for predicting different
types of hate speech, document classification, and sentiment analysis.
Experiments demonstrate that BengFastText can capture the semantics of words
from respective contexts correctly. Evaluations against several baseline
embedding models, e.g., Word2Vec and GloVe yield up to 92.30%, 82.25%, and
90.45% F1-scores in case of document classification, sentiment analysis, and
hate speech detection, respectively during 5-fold cross-validation tests.
- Abstract(参考訳): ソーシャルメディアやマイクロブログサイトの指数関数的な成長は、表現の自由や個人の声を力づけるプラットフォームを提供するだけでなく、オンラインハラスメントやサイバーいじめ、ヘイトスピーチといった反社会的行動の表現を可能にする。
社会的・反社会的行動分析、文書的特徴分析、感情分析にこれらのデータを活用するための多くの研究が提案されている。
しかし、ベンガル語、タミル語、アサメセ語、テルグ語など、NLPタスクの計算資源が不足しているような、未資源の言語が存在する。
本稿では,非ソース言語であるbengaliの分類ベンチマークについて述べる。
ヘイトスピーチ検出,文書分類,感情分析の3つのデータセットを作成した。
これまでで最大のベンガル語埋め込みモデルを構築したのは、BengFastTextという2億5000万の記事に基づいていました。
文書分類,感情分析,ヘイトスピーチ検出の3つの実験を行った。
単語の埋め込みをMConv-LSTM(Multi channel Convolutional-LSTM)ネットワークに組み込んで、さまざまなタイプのヘイトスピーチ、文書分類、感情分析を予測する。
実験により、ベングファストテキストは各文脈から単語の意味を正しく捉えることができる。
文書分類、感情分析、ヘイトスピーチ検出において、Word2Vec、GloVeなどのベースライン埋め込みモデルに対する評価は最大92.30%、82.25%、90.45%のF1スコアとなる。
関連論文リスト
- Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Hate Speech and Offensive Language Detection in Bengali [5.765076125746209]
我々は、5Kの実際のツイートと5Kのロマンティックなベンガルツイートからなる10Kのベンガルポストの注釈付きデータセットを開発する。
このような憎しみのあるポストの分類のためのベースラインモデルをいくつか実装する。
また、分類性能を高めるための言語間移動機構についても検討する。
論文 参考訳(メタデータ) (2022-10-07T12:06:04Z) - Multimodal Hate Speech Detection from Bengali Memes and Texts [0.6709991492637819]
本稿では,マルチモーダルなベンガルミームとテキストからのヘイトスピーチ検出について述べる。
我々は、ヘイトスピーチ検出のためのテキスト情報と視覚情報を分析するために、複数のニューラルネットワークを訓練する。
本研究は,ベンガル語におけるヘイトスピーチ検出にはミームが適度に有用であることが示唆する。
論文 参考訳(メタデータ) (2022-04-19T11:15:25Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Ceasing hate withMoH: Hate Speech Detection in Hindi-English
Code-Switched Language [2.9926023796813728]
本研究はヒンディー語・英語のコードスイッチング言語におけるヘイトスピーチの分析に焦点をあてる。
データ構造を含むため、Hindi の "Love" を意味する MoH または Map Only Hindi を開発した。
MoHパイプラインは言語識別で構成され、ローマ語からデヴァナガリ・ヒンディー語への翻訳は、ローマ語のヒンディー語の知識ベースを用いて行われる。
論文 参考訳(メタデータ) (2021-10-18T15:24:32Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - DeepHateExplainer: Explainable Hate Speech Detection in Under-resourced
Bengali Language [1.2246649738388389]
ベンガル語からのヘイトスピーチ検出のための説明可能なアプローチを提案する。
我々のアプローチでは、ベンガルのテキストは、政治的、個人的、地政学的、宗教的憎悪に分類する前に、最初に包括的に前処理される。
機械学習(線形および木ベースのモデル)およびディープニューラルネットワーク(CNN、Bi-LSTM、Conv-LSTMなどの単語埋め込み)に対する評価は、それぞれ政治的、個人的、地政学的、宗教的憎悪に対して、F1スコアは84%、90%、88%、88%である。
論文 参考訳(メタデータ) (2020-12-28T16:46:03Z) - Hate Speech detection in the Bengali language: A dataset and its
baseline evaluation [0.8793721044482612]
本稿では,クラウドソーシングによってタグ付けされ,専門家によって検証された3万のユーザコメントのデータセットを提案する。
コメントはすべてYouTubeとFacebookのコメントセクションから収集され、7つのカテゴリに分類される。
合計50人の注釈家が各コメントに3回注釈を付け、多数決が最終注釈として採決された。
論文 参考訳(メタデータ) (2020-12-17T15:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。