論文の概要: Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media
- arxiv url: http://arxiv.org/abs/2105.04913v1
- Date: Tue, 11 May 2021 10:02:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 21:10:25.205038
- Title: Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media
- Title(参考訳): ソーシャルメディア上でのHinglishデータに対するHateful Speechの検出における人工知能の役割
- Authors: Ananya Srivastava, Mohammed Hasan, Bhargav Yagnik, Rahee Walambe and
Ketan Kotecha
- Abstract要約: ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
- 参考スコア(独自算出の注目度): 1.8899300124593648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social networking platforms provide a conduit to disseminate our ideas, views
and thoughts and proliferate information. This has led to the amalgamation of
English with natively spoken languages. Prevalence of Hindi-English code-mixed
data (Hinglish) is on the rise with most of the urban population all over the
world. Hate speech detection algorithms deployed by most social networking
platforms are unable to filter out offensive and abusive content posted in
these code-mixed languages. Thus, the worldwide hate speech detection rate of
around 44% drops even more considering the content in Indian colloquial
languages and slangs. In this paper, we propose a methodology for efficient
detection of unstructured code-mix Hinglish language. Fine-tuning based
approaches for Hindi-English code-mixed language are employed by utilizing
contextual based embeddings such as ELMo (Embeddings for Language Models),
FLAIR, and transformer-based BERT (Bidirectional Encoder Representations from
Transformers). Our proposed approach is compared against the pre-existing
methods and results are compared for various datasets. Our model outperforms
the other methods and frameworks.
- Abstract(参考訳): ソーシャルネットワーキングプラットフォームは、私たちのアイデア、見解、思考を広め、情報を広めるためのコンジットを提供します。
このことが英語とネイティブ言語との融合につながった。
ヒンズー語と英語の混成データ(ヒンズー語)の普及は、世界中の都市人口の増加と共に進んでいる。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
したがって、世界中のヘイトスピーチ検出率は、インドの口語言語やスラングのコンテンツを考えると、さらに44%減少している。
本稿では,非構造化コード混合hinglish言語の効率的な検出手法を提案する。
Hindi- English code-mixed Languageの微調整に基づくアプローチは、ELMo (Embeddings for Language Models)、FLAIR、および変換器ベースのBERT (Bidirectional Encoder Representations from Transformers)のような文脈ベースの埋め込みを利用する。
提案手法は既存の手法と比較し,その結果を各種データセットと比較した。
私たちのモデルは他のメソッドやフレームワークよりも優れています。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - AtteSTNet -- An attention and subword tokenization based approach for
code-switched text hate speech detection [1.3190581566723918]
ソーシャルメディアで使われる言語は、しばしば英語と地域の母語の組み合わせである。
インドではヒンディー語が主に使われ、しばしば英語で表記され、ヒンズー語(ヒンズー語+英語)が流行する。
論文 参考訳(メタデータ) (2021-12-10T20:01:44Z) - Ceasing hate withMoH: Hate Speech Detection in Hindi-English
Code-Switched Language [2.9926023796813728]
本研究はヒンディー語・英語のコードスイッチング言語におけるヘイトスピーチの分析に焦点をあてる。
データ構造を含むため、Hindi の "Love" を意味する MoH または Map Only Hindi を開発した。
MoHパイプラインは言語識別で構成され、ローマ語からデヴァナガリ・ヒンディー語への翻訳は、ローマ語のヒンディー語の知識ベースを用いて行われる。
論文 参考訳(メタデータ) (2021-10-18T15:24:32Z) - A Unified System for Aggression Identification in English Code-Mixed and
Uni-Lingual Texts [25.15521897068512]
我々は、英語のコードミックスデータセットとユニ言語の英語データセットで動作する、統一的で堅牢なディープラーニングアーキテクチャを導入する。
考案されたシステムは、心理言語学的特徴と非常にベーシックな言語的特徴を使用する。
提案システムは、英語のコードミキシングデータセットと単言語の英語データセットに対する従来のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-01-15T17:06:29Z) - "Hinglish" Language -- Modeling a Messy Code-Mixed Language [0.0]
本研究は,ヒンディー語で書かれた社会コンテンツを,嫌悪的・憎悪的・不快なカテゴリーに分類する上で,ディープラーニング技術を用いて分類問題に取り組むことに焦点を当てる。
我々は、同義語置換、ランダム挿入、ランダムスワップ、ランダム削除などの簡単なテキスト拡張技術を備えた双方向シーケンスモデルを利用する。
論文 参考訳(メタデータ) (2019-12-30T23:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。