論文の概要: Data Bootstrapping Approaches to Improve Low Resource Abusive Language
Detection for Indic Languages
- arxiv url: http://arxiv.org/abs/2204.12543v1
- Date: Tue, 26 Apr 2022 18:56:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-28 13:14:02.835410
- Title: Data Bootstrapping Approaches to Improve Low Resource Abusive Language
Detection for Indic Languages
- Title(参考訳): indic言語の低リソース乱用言語検出を改善するためのデータブートストラップ法
- Authors: Mithun Das and Somnath Banerjee and Animesh Mukherjee
- Abstract要約: Indic言語における多言語乱用音声の大規模分析を実演する。
本研究では,異なる言語間伝達機構について検討し,様々な多言語モデルによる虐待的音声検出の性能について検討する。
- 参考スコア(独自算出の注目度): 5.51252705016179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abusive language is a growing concern in many social media platforms.
Repeated exposure to abusive speech has created physiological effects on the
target users. Thus, the problem of abusive language should be addressed in all
forms for online peace and safety. While extensive research exists in abusive
speech detection, most studies focus on English. Recently, many smearing
incidents have occurred in India, which provoked diverse forms of abusive
speech in online space in various languages based on the geographic location.
Therefore it is essential to deal with such malicious content. In this paper,
to bridge the gap, we demonstrate a large-scale analysis of multilingual
abusive speech in Indic languages. We examine different interlingual transfer
mechanisms and observe the performance of various multilingual models for
abusive speech detection for eight different Indic languages. We also
experiment to show how robust these models are on adversarial attacks. Finally,
we conduct an in-depth error analysis by looking into the models' misclassified
posts across various settings. We have made our code and models public for
other researchers.
- Abstract(参考訳): 乱用言語は多くのソーシャルメディアプラットフォームで懸念が高まっている。
乱用音声への繰り返し曝露は, 対象ユーザに対する生理的影響を生じさせている。
したがって、乱用言語の問題は、オンラインの平和と安全のためにあらゆる形で解決されるべきである。
乱用音声検出には広範な研究があるが、ほとんどの研究は英語に焦点を当てている。
近年,インドでは多くのスミア事件が発生しており,位置情報に基づく様々な言語におけるオンライン空間における虐待スピーチの多様な形態が引き起こされている。
そのため、このような悪質なコンテンツを扱うことが不可欠である。
本稿では,このギャップを埋めるため,indic 言語における多言語乱用音声の大規模分析を行う。
異なる言語間伝達機構について検討し,8種類のindic言語における乱用音声検出のための多言語モデルの性能を観察した。
また、これらのモデルが敵攻撃にどれほど頑丈であるかを示す実験も行います。
最後に,様々な設定にまたがって,モデルの誤分類記事を調べることによって,詳細な誤差解析を行う。
他の研究者のためにコードとモデルを公開しました。
関連論文リスト
- Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Examining Temporal Bias in Abusive Language Detection [3.465144840147315]
乱用言語を自動的に検出する機械学習モデルが開発されている。
これらのモデルは、時間とともに話題、言語の使用、社会的規範が変化する現象である時間的偏見に悩まされる。
本研究では,多言語にわたる虐待的言語検出における時間的バイアスの性質と影響について検討した。
論文 参考訳(メタデータ) (2023-09-25T13:59:39Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Abusive and Threatening Language Detection in Urdu using Boosting based
and BERT based models: A Comparative Approach [0.0]
本稿では,その共有タスクに基づいて,ウルドゥー語におけるコンテンツ検出を悪用し,脅かすための機械学習モデルについて検討する。
私たちのモデルは、それぞれF1scoreof 0.88と0.54のコンテンツ検出を嫌がらせと脅かすために、最初に導入されました。
論文 参考訳(メタデータ) (2021-11-27T20:03:19Z) - Cross-lingual Capsule Network for Hate Speech Detection in Social Media [6.531659195805749]
本研究では,言語間のヘイトスピーチ検出タスクについて検討し,ヘイトスピーチのリソースをある言語から別の言語に適応させることによって問題に対処する。
本稿では,ヘイトスピーチのための言語間カプセルネットワーク学習モデルと追加のドメイン固有語彙意味論を組み合わせることを提案する。
私たちのモデルは、AMI@Evalita 2018とAMI@Ibereval 2018のベンチマークデータセットで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-08-06T12:53:41Z) - Cross-lingual hate speech detection based on multilingual
domain-specific word embeddings [4.769747792846004]
トランスファーラーニングの視点から多言語のヘイトスピーチ検出の課題に取り組むことを提案する。
私たちの目標は、ある特定の言語の知識が他の言語の分類に使用できるかどうかを判断することです。
単純かつ特定された多言語ヘイト表現を用いることで分類結果が向上することを示す。
論文 参考訳(メタデータ) (2021-04-30T02:24:50Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Detect All Abuse! Toward Universal Abusive Language Detection Models [5.840117063192334]
我々は、さまざまなドメインにわたる複数のALDタスクに対処できる新しい汎用ALDフレームワークMACASを紹介する。
本フレームワークは,乱用言語のターゲットと内容を表す多面的乱用言語埋め込みを網羅する。
そこで我々は,多面的な乱用言語を受け入れるために,クロスアテンションゲートフロー機構を提案し,利用した。
論文 参考訳(メタデータ) (2020-10-08T05:39:00Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。