論文の概要: Detecting Racist Text in Bengali: An Ensemble Deep Learning Framework
- arxiv url: http://arxiv.org/abs/2401.16748v1
- Date: Tue, 30 Jan 2024 04:56:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 16:06:19.709966
- Title: Detecting Racist Text in Bengali: An Ensemble Deep Learning Framework
- Title(参考訳): ベンガル語におけるラシストテキストの検出 - アンサンブルディープラーニングフレームワーク
- Authors: S. S. Saruar, Nusrat, Sadia
- Abstract要約: 人種差別は我々の国だけでなく世界中で危険な現象だ。
ベンガル語で新しいデータセットを構築しました。
我々は87.94%の精度でテキスト検出に成功した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Racism is an alarming phenomenon in our country as well as all over the
world. Every day we have come across some racist comments in our daily life and
virtual life. Though we can eradicate this racism from virtual life (such as
Social Media). In this paper, we have tried to detect those racist comments
with NLP and deep learning techniques. We have built a novel dataset in the
Bengali Language. Further, we annotated the dataset and conducted data label
validation. After extensive utilization of deep learning methodologies, we have
successfully achieved text detection with an impressive accuracy rate of
87.94\% using the Ensemble approach. We have applied RNN and LSTM models using
BERT Embeddings. However, the MCNN-LSTM model performed highest among all those
models. Lastly, the Ensemble approach has been followed to combine all the
model results to increase overall performance.
- Abstract(参考訳): 人種差別は我々の国だけでなく世界中で危険な現象だ。
私たちは毎日、日々の生活と仮想生活に関する人種差別的なコメントを目にしています。
しかし、この人種差別を仮想生活(ソーシャルメディアなど)から根絶することができる。
本稿では,NLPおよびディープラーニング技術を用いた人種差別的コメントの検出を試みた。
私たちはベンガル語で新しいデータセットを構築しました。
さらに,データセットにアノテートを行い,データラベル検証を行った。
深層学習法を広範囲に活用した結果,アンサンブル法を用いて87.94\%の精度でテキスト検出に成功した。
BERT 埋め込みを用いて RNN と LSTM モデルを適用した。
しかし、MCNN-LSTMモデルはこれらのモデルの中で最も高い性能を示した。
最後に、アンサンブルアプローチは、全体的なパフォーマンスを向上させるためにすべてのモデル結果を統合するために従った。
関連論文リスト
- NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - BD-SHS: A Benchmark Dataset for Learning to Detect Online Bangla Hate
Speech in Different Social Contexts [1.5483942282713241]
本稿では,Hate Speechをソーシャルコンテキストに含めた大規模ラベル付きデータセットを提案する。
データセットには、オンラインソーシャルネットワークサイトからクロールされた50,200件以上の攻撃的なコメントが含まれている。
実験の結果,147万コメントのみを用いてトレーニングした単語の埋め込みが一貫してHS検出のモデリングを改善することがわかった。
論文 参考訳(メタデータ) (2022-06-01T10:10:15Z) - Multimodal Hate Speech Detection from Bengali Memes and Texts [0.6709991492637819]
本稿では,マルチモーダルなベンガルミームとテキストからのヘイトスピーチ検出について述べる。
我々は、ヘイトスピーチ検出のためのテキスト情報と視覚情報を分析するために、複数のニューラルネットワークを訓練する。
本研究は,ベンガル語におけるヘイトスピーチ検出にはミームが適度に有用であることが示唆する。
論文 参考訳(メタデータ) (2022-04-19T11:15:25Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z) - SN Computer Science: Towards Offensive Language Identification for Tamil
Code-Mixed YouTube Comments and Posts [2.0305676256390934]
本研究では,複数の深層学習モデルを用いた広範囲な実験を行い,YouTube上の攻撃的コンテンツを検出するための伝達学習モデルを提案する。
そこで本研究では,多言語トランスフォーマーネットワークの微調整とエンハンスブルによるより良い結果を得るために,選択的翻訳と音読化技術の新しいフレキシブルなアプローチを提案する。
提案したULMFiTとmBERTBiLSTMは良好な結果を得た。
論文 参考訳(メタデータ) (2021-08-24T20:23:30Z) - KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文 参考訳(メタデータ) (2021-05-20T11:40:30Z) - hBert + BiasCorp -- Fighting Racism on the Web [58.768804813646334]
これはfox news、breitbartnews、youtubeの3つの特定のソースから139,090のコメントとニュースを含むデータセットです。
本研究では、hBERT を新しい Hopfield Layer を用いて、予め訓練された BERT モデルの特定の層を修正する。
開発者がwebアプリケーションでトレーニングされたモデルを利用できるようにするため、javascriptライブラリとchrome拡張アプリケーションもリリースしています。
論文 参考訳(メタデータ) (2021-04-06T02:17:20Z) - Evaluation of Deep Learning Models for Hostility Detection in Hindi Text [2.572404739180802]
ヒンディー語における敵対的テキスト検出手法を提案する。
提案手法は、Constraint@AAAI 2021 Hindiホスト性検出データセットで評価される。
この多ラベル分類問題に対して,CNN,LSTM,BERTに基づく深層学習手法のホストを評価した。
論文 参考訳(メタデータ) (2021-01-11T19:10:57Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Detecting White Supremacist Hate Speech using Domain Specific Word
Embedding with Deep Learning and BERT [0.0]
白人至上主義のヘイトスピーチは、ソーシャルメディア上で最も最近観察された有害なコンテンツの一つである。
本研究では,ディープラーニングと自然言語処理技術を用いて,Twitter上での白人至上主義者のヘイトスピーチを自動的に検出する可能性について検討した。
論文 参考訳(メタデータ) (2020-10-01T12:44:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。