論文の概要: All You Need is "Leet": Evading Hate-speech Detection AI
- arxiv url: http://arxiv.org/abs/2505.16263v1
- Date: Thu, 22 May 2025 05:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.070991
- Title: All You Need is "Leet": Evading Hate-speech Detection AI
- Title(参考訳): ヘイトスピーチ検出AIを悪用する「リート」
- Authors: Sampanna Yashwant Kahu, Naman Ahuja,
- Abstract要約: 本稿では,オンラインプラットフォーム上でのヘイトスピーチからユーザを守るためのブラックボックス手法を設計する。
我々の最高の摂動攻撃は、86.8%のヘイトフルテキストに対するヘイトスピーチ検出を回避できる。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Social media and online forums are increasingly becoming popular. Unfortunately, these platforms are being used for spreading hate speech. In this paper, we design black-box techniques to protect users from hate-speech on online platforms by generating perturbations that can fool state of the art deep learning based hate speech detection models thereby decreasing their efficiency. We also ensure a minimal change in the original meaning of hate-speech. Our best perturbation attack is successfully able to evade hate-speech detection for 86.8 % of hateful text.
- Abstract(参考訳): ソーシャルメディアやオンラインフォーラムはますます人気が高まっている。
残念ながら、これらのプラットフォームはヘイトスピーチを広めるために使われています。
本稿では,オンラインプラットフォーム上でのヘイトスピーチからユーザを守るために,最先端のディープラーニングに基づくヘイトスピーチ検出モデルを騙し,その効率を低下させることにより,ブラックボックス手法を設計する。
また、ヘイトスピーチの本来の意味の最小限の変更も保証します。
我々の最高の摂動攻撃は、86.8%のヘイトフルテキストに対するヘイトスピーチ検出を回避できる。
関連論文リスト
- ProvocationProbe: Instigating Hate Speech Dataset from Twitter [0.39052860539161904]
textitProvocationProbeは、ヘイトスピーチを一般的なヘイトスピーチと区別するためのデータセットである。
本研究では、Twitterから約2万件のツイートを収集し、全世界で9件の論争を巻き起こした。
論文 参考訳(メタデータ) (2024-10-25T16:57:59Z) - Hostile Counterspeech Drives Users From Hate Subreddits [1.5035331281822]
我々は、Redditにおけるヘイトサブレディット内の新参者に対する反音声の効果を分析した。
非敵対的なカウンタースピーチは、ユーザーがこれらの憎悪のサブレディットから完全に切り離すのを防ぐのに効果がない。
単一の敵対的な反論は、将来のエンゲージメントの可能性を大幅に減らす。
論文 参考訳(メタデータ) (2024-05-28T17:12:41Z) - NLP Systems That Can't Tell Use from Mention Censor Counterspeech, but Teaching the Distinction Helps [43.40965978436158]
問題のある内容に反論する対訳は、しばしば有害な言語に言及するが、それ自体は有害ではない。
最近の言語モデルでさえ、言及と使用の区別に失敗していることを示す。
この失敗は、誤報とヘイトスピーチ検出という2つの重要な下流タスクに伝播する。
論文 参考訳(メタデータ) (2024-04-02T05:36:41Z) - An Investigation of Large Language Models for Real-World Hate Speech
Detection [46.15140831710683]
既存の手法の大きな制限は、ヘイトスピーチ検出がコンテキストの問題である点である。
近年,大規模言語モデル (LLM) はいくつかの自然言語処理において最先端の性能を示した。
本研究は, ヘイトスピーチの文脈を効果的に把握する上で, 巧妙な推論プロンプトが有効であることを明らかにする。
論文 参考訳(メタデータ) (2024-01-07T00:39:33Z) - Overview of the HASOC Subtrack at FIRE 2023: Identification of Tokens
Contributing to Explicit Hate in English by Span Detection [40.10513344092731]
反応的に、ブラックボックスモデルを使ってヘイトフルコンテンツを特定すると、投稿が自動的にヘイトフルであるとフラグ付けされた理由について、ユーザーを混乱させる可能性がある。
ポストが公にされる前に、リフレージングを提案することで、積極的な緩和が達成できる。
論文 参考訳(メタデータ) (2023-11-16T12:01:19Z) - Analyzing User Characteristics of Hate Speech Spreaders on Social Media [20.57872238271025]
ヘイトスピーチにおけるユーザ特性の役割を分析する。
社会的影響の少ないユーザーは、ヘイトスピーチをシェアする傾向にある。
政治的反トランプと反右派憎悪は、より大きな社会的影響力を持つユーザーによって再創造される。
論文 参考訳(メタデータ) (2023-10-24T12:17:48Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Hate Speech Classification Using SVM and Naive BAYES [0.0]
多くの国は、オンラインヘイトスピーチを避けるための法律を開発した。
しかし、オンラインコンテンツが成長を続けるにつれ、ヘイトスピーチが広まる。
ヘイトスピーチを検出して削除するために、オンラインユーザーコンテンツを自動的に処理することが重要である。
論文 参考訳(メタデータ) (2022-03-21T17:15:38Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。