論文の概要: Reducing Unintended Identity Bias in Russian Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2010.11666v1
- Date: Thu, 22 Oct 2020 12:54:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 05:02:51.032259
- Title: Reducing Unintended Identity Bias in Russian Hate Speech Detection
- Title(参考訳): ロシアのヘイトスピーチ検出における意図しないアイデンティティバイアスの低減
- Authors: Nadezhda Zueva, Madina Kabirova, Pavel Kalaidin
- Abstract要約: 本稿では、ヘイトスピーチをロシア語で分類する取り組みについて述べる。
本研究では,言語モデルを用いた学習データの生成など,意図しないバイアスを減らすためのシンプルな手法を提案する。
- 参考スコア(独自算出の注目度): 0.21485350418225244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Toxicity has become a grave problem for many online communities and has been
growing across many languages, including Russian. Hate speech creates an
environment of intimidation, discrimination, and may even incite some
real-world violence. Both researchers and social platforms have been focused on
developing models to detect toxicity in online communication for a while now. A
common problem of these models is the presence of bias towards some words (e.g.
woman, black, jew) that are not toxic, but serve as triggers for the classifier
due to model caveats. In this paper, we describe our efforts towards
classifying hate speech in Russian, and propose simple techniques of reducing
unintended bias, such as generating training data with language models using
terms and words related to protected identities as context and applying word
dropout to such words.
- Abstract(参考訳): Toxicityは多くのオンラインコミュニティで深刻な問題となり、ロシア語を含む多くの言語で成長している。
ヘイトスピーチは脅迫や差別の環境を生み出し、現実世界の暴力を誘発することもある。
研究者もソーシャルプラットフォームも、オンラインコミュニケーションの有害性を検出するモデルの開発に注力してきた。
これらのモデルの一般的な問題は、一部の単語(女性、黒人、ユダヤ人など)に対する偏見の存在であり、毒性はないが、モデルの注意点により分類者の引き金となる。
本稿では,ヘイトスピーチをロシア語で分類する取り組みについて述べるとともに,文脈として保護されたアイデンティティに関連する用語や単語を用いて言語モデルを用いた学習データを生成することや,そのような単語に単語ドロップアウトを適用することなど,意図しないバイアスを減らすための簡単な手法を提案する。
関連論文リスト
- Exploring Large Language Models for Hate Speech Detection in Rioplatense Spanish [0.08192907805418582]
ヘイトスピーチ検出は多くの言語変種、スラング、スラー、表現モダリティ、文化的ニュアンスを扱う。
本研究では,リオプラテンセ・スペイン語のヘイトスピーチ検出における大規模言語モデルの性能について,簡単な解析を行った。
論文 参考訳(メタデータ) (2024-10-16T02:32:12Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - HCDIR: End-to-end Hate Context Detection, and Intensity Reduction model
for online comments [2.162419921663162]
ソーシャルメディア投稿において,Hate Context Detection と Hate Intensity Reduction のための新しいエンドツーエンドモデル HCDIR を提案する。
我々は、ヘイトフルコメントを検出するために、いくつかの事前訓練された言語モデルを微調整し、最も優れたヘイトフルコメント検出モデルを確認した。
論文 参考訳(メタデータ) (2023-12-20T17:05:46Z) - Developing Linguistic Patterns to Mitigate Inherent Human Bias in
Offensive Language Detection [1.6574413179773761]
本稿では,ラベル付けプロセスにおけるバイアスを低減するための言語データ拡張手法を提案する。
このアプローチは、複数の言語にわたる攻撃的な言語分類タスクを改善する可能性がある。
論文 参考訳(メタデータ) (2023-12-04T10:20:36Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable
Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。
不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文 参考訳(メタデータ) (2022-03-04T15:59:06Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - One to rule them all: Towards Joint Indic Language Hate Speech Detection [7.296361860015606]
本稿では、最先端のトランスフォーマー言語モデルを用いて、ヘイトや攻撃的な音声検出を共同で学習する多言語アーキテクチャを提案する。
提案したテストコーパスでは,サブタスク1AのマクロF1スコアが0.7996,0.7748,0.8651,サブタスク1Bのきめ細かい分類において0.6268,0.5603となる。
論文 参考訳(メタデータ) (2021-09-28T13:30:00Z) - Towards generalisable hate speech detection: a review on obstacles and
solutions [6.531659195805749]
本稿では,既存のヘイトスピーチ検出モデルの一般化について概説する。
主な障害に対処する既存の試みを要約し、ヘイトスピーチ検出における一般化を改善するための今後の研究の方向性を提案する。
論文 参考訳(メタデータ) (2021-02-17T17:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。