論文の概要: Ceasing hate withMoH: Hate Speech Detection in Hindi-English
Code-Switched Language
- arxiv url: http://arxiv.org/abs/2110.09393v1
- Date: Mon, 18 Oct 2021 15:24:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 14:07:00.172029
- Title: Ceasing hate withMoH: Hate Speech Detection in Hindi-English
Code-Switched Language
- Title(参考訳): hate withmohの廃止:ヒンディー語-英語コード切り換え言語におけるヘイトスピーチ検出
- Authors: Arushi Sharma, Anubha Kabra, Minni Jain
- Abstract要約: 本研究はヒンディー語・英語のコードスイッチング言語におけるヘイトスピーチの分析に焦点をあてる。
データ構造を含むため、Hindi の "Love" を意味する MoH または Map Only Hindi を開発した。
MoHパイプラインは言語識別で構成され、ローマ語からデヴァナガリ・ヒンディー語への翻訳は、ローマ語のヒンディー語の知識ベースを用いて行われる。
- 参考スコア(独自算出の注目度): 2.9926023796813728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media has become a bedrock for people to voice their opinions
worldwide. Due to the greater sense of freedom with the anonymity feature, it
is possible to disregard social etiquette online and attack others without
facing severe consequences, inevitably propagating hate speech. The current
measures to sift the online content and offset the hatred spread do not go far
enough. One factor contributing to this is the prevalence of regional languages
in social media and the paucity of language flexible hate speech detectors. The
proposed work focuses on analyzing hate speech in Hindi-English code-switched
language. Our method explores transformation techniques to capture precise text
representation. To contain the structure of data and yet use it with existing
algorithms, we developed MoH or Map Only Hindi, which means "Love" in Hindi.
MoH pipeline consists of language identification, Roman to Devanagari Hindi
transliteration using a knowledge base of Roman Hindi words. Finally, it
employs the fine-tuned Multilingual Bert and MuRIL language models. We
conducted several quantitative experiment studies on three datasets and
evaluated performance using Precision, Recall, and F1 metrics. The first
experiment studies MoH mapped text's performance with classical machine
learning models and shows an average increase of 13% in F1 scores. The second
compares the proposed work's scores with those of the baseline models and
offers a rise in performance by 6%. Finally, the third reaches the proposed MoH
technique with various data simulations using the existing transliteration
library. Here, MoH outperforms the rest by 15%. Our results demonstrate a
significant improvement in the state-of-the-art scores on all three datasets.
- Abstract(参考訳): ソーシャルメディアは、人々が世界中で意見を聞くための基盤になっている。
匿名性機能による自由感の高まりにより、オンラインでの社会的礼儀を無視し、深刻な結果に直面することなく他人を攻撃し、必然的にヘイトスピーチを広めることができる。
オンラインコンテンツをふるいにかけ、憎しみの拡散を相殺する現在の措置は十分ではない。
この要因の1つは、ソーシャルメディアにおける地域言語の普及と、言語フレキシブルなヘイトスピーチ検出器のpaucityである。
本研究はヒンズー語-英語コード切り換え言語におけるヘイトスピーチの分析に焦点を当てている。
本手法は,正確なテキスト表現を捉える変換手法を提案する。
データの構造を包含し、既存のアルゴリズムで使用するために、ヒンディー語で「愛」を意味するMoHまたはMap Only Hindiを開発した。
mohパイプラインは、ローマ語からデヴァナガリ・ヒンディー語への翻訳、ローマ語のヒンディー語の知識ベースから成り立っている。
最後に、微調整されたMultilingual BertとMulil言語モデルを採用している。
我々は,3つのデータセットの定量的実験を行い,精度,リコール,F1測定値を用いて評価を行った。
最初の実験では、MoHは古典的な機械学習モデルを用いてテキストのパフォーマンスをマッピングし、F1スコアの平均13%の増加を示した。
2つ目は、提案された作品のスコアとベースラインモデルのスコアを比較し、パフォーマンスを6%向上させる。
最後に,提案したMoH技術に,既存の翻訳ライブラリを用いて様々なデータシミュレーションを行った。
ここでは、MoHは残りの15%を上回ります。
以上の結果から,3つのデータセットにおける最先端スコアの大幅な改善が示された。
関連論文リスト
- Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - HateCheckHIn: Evaluating Hindi Hate Speech Detection Models [6.52974752091861]
マルチリンガルヘイトは 自動検出の大きな課題です
評価のための機能セットを紹介する。
Hindiをベース言語として考えると、各機能のテストケースを作成します。
論文 参考訳(メタデータ) (2022-04-30T19:09:09Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - HS-BAN: A Benchmark Dataset of Social Media Comments for Hate Speech
Detection in Bangla [2.055204980188575]
本稿では,5万以上のラベル付きコメントからなる2進級ヘイトスピーチデータセットであるHS-BANを提案する。
本稿では,ヘイトスピーチ検出のためのベンチマークシステムを開発するために,従来の言語機能とニューラルネットワークに基づく手法について検討する。
我々のベンチマークでは、FastTextの非公式な単語埋め込みの上にBi-LSTMモデルがあり、86.78%のF1スコアを達成した。
論文 参考訳(メタデータ) (2021-12-03T13:35:18Z) - Detecting Abusive Albanian [5.092028049119383]
scShajは、さまざまなソーシャルメディアプラットフォーム上のユーザーテキストコンテンツから構築されたヘイトスピーチと攻撃的なスピーチのための注釈付きデータセットである。
データセットは3つの異なる分類モデルを用いてテストされ、最も良いものは攻撃言語を識別するためのF1スコア0.77を達成することである。
論文 参考訳(メタデータ) (2021-07-28T18:47:32Z) - Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T10:02:28Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Factorization of Fact-Checks for Low Resource Indian Languages [44.94080515860928]
FactDRILは、インドの地域言語のための最初の大規模多言語ファクトチェックデータセットです。
本データセットは英語9,058サンプル,ヒンディー語5,155サンプルからなり,残りの8,222サンプルは様々な地域言語に分布する。
このデータセットは貴重なリソースであり、低リソース言語での偽ニュースの拡散と戦う出発点となると期待しています。
論文 参考訳(メタデータ) (2021-02-23T16:47:41Z) - Classification Benchmarks for Under-resourced Bengali Language based on
Multichannel Convolutional-LSTM Network [3.0168410626760034]
われわれはBengFastTextという2億5000万記事をベースに、これまでで最大のベンガル語埋め込みモデルを構築している。
単語の埋め込みを多チャンネル畳み込み-LSTMネットワークに組み込んで、さまざまなタイプのヘイトスピーチ、文書分類、感情分析を予測する。
論文 参考訳(メタデータ) (2020-04-11T22:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。