論文の概要: WATCHED: A Web AI Agent Tool for Combating Hate Speech by Expanding Data
- arxiv url: http://arxiv.org/abs/2509.01379v1
- Date: Mon, 01 Sep 2025 11:26:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.660667
- Title: WATCHED: A Web AI Agent Tool for Combating Hate Speech by Expanding Data
- Title(参考訳): WATCHED: データを拡張してヘイトスピーチを会話するためのWebAIエージェントツール
- Authors: Paloma Piot, Diego Sánchez, Javier Parapar,
- Abstract要約: オンラインの害は、デジタル空間における問題の増加であり、ユーザーの安全を危険にさらすとともに、ソーシャルメディアプラットフォームへの信頼を減らす。
これを解決するには、自動システムのスピードとスケールを人間のモデレーターの判断と洞察と組み合わせるツールが必要です。
これらのツールは有害なコンテンツを見つけるだけでなく、その決定を明確に説明し、信頼と理解を構築するのに役立ちます。
- 参考スコア(独自算出の注目度): 5.127121704630949
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Online harms are a growing problem in digital spaces, putting user safety at risk and reducing trust in social media platforms. One of the most persistent forms of harm is hate speech. To address this, we need tools that combine the speed and scale of automated systems with the judgment and insight of human moderators. These tools should not only find harmful content but also explain their decisions clearly, helping to build trust and understanding. In this paper, we present WATCHED, a chatbot designed to support content moderators in tackling hate speech. The chatbot is built as an Artificial Intelligence Agent system that uses Large Language Models along with several specialised tools. It compares new posts with real examples of hate speech and neutral content, uses a BERT-based classifier to help flag harmful messages, looks up slang and informal language using sources like Urban Dictionary, generates chain-of-thought reasoning, and checks platform guidelines to explain and support its decisions. This combination allows the chatbot not only to detect hate speech but to explain why content is considered harmful, grounded in both precedent and policy. Experimental results show that our proposed method surpasses existing state-of-the-art methods, reaching a macro F1 score of 0.91. Designed for moderators, safety teams, and researchers, the tool helps reduce online harms by supporting collaboration between AI and human oversight.
- Abstract(参考訳): オンラインの害は、デジタル空間における問題の増加であり、ユーザーの安全を危険にさらすとともに、ソーシャルメディアプラットフォームへの信頼を減らす。
最も永続的な害の1つはヘイトスピーチである。
これを解決するには、自動システムのスピードとスケールを人間のモデレーターの判断と洞察と組み合わせるツールが必要です。
これらのツールは有害なコンテンツを見つけるだけでなく、その決定を明確に説明し、信頼と理解を構築するのに役立ちます。
本稿では,ヘイトスピーチに対処するコンテンツモデレーターを支援するチャットボットWATCHEDを提案する。
このチャットボットは、大規模言語モデルといくつかの専門ツールを使用する人工知能エージェントシステムとして構築されている。
新しい投稿をヘイトスピーチや中立的なコンテンツの実例と比較し、BERTベースの分類器を使って有害なメッセージのフラグを立て、Urban Dictionaryのようなソースを使ってスラングや非公式な言語を検索し、チェーン・オブ・ソート・推論を生成し、プラットフォームガイドラインをチェックしてその決定を説明し、サポートする。
この組み合わせにより、チャットボットはヘイトスピーチを検出するだけでなく、コンテンツが有害であると考えられる理由を説明することができる。
実験の結果,提案手法は既存の最先端手法を超越し,マクロF1スコア0.91に達した。
モデレーター、安全チーム、研究者向けに設計されたこのツールは、AIと人間の監視のコラボレーションをサポートすることで、オンラインの害を軽減する。
関連論文リスト
- A Hate Speech Moderated Chat Application: Use Case for GDPR and DSA Compliance [0.0]
本研究は、コンテンツモデレーションプロセスに法的・倫理的推論を実装する新しい応用法を提案する。
GPT-3.5やSolid Pods,ルール言語Provaといった技術を使って,オンラインコミュニケーションの基本となる2つのユースケースを提示し,実装する。
この研究は、ヘイトスピーチの法的および倫理的定義の異なる範囲で推論するための新しいアプローチを提案し、ヘイトスピーチに適合するカウンターを計画する。
論文 参考訳(メタデータ) (2024-10-10T08:28:38Z) - SWE2: SubWord Enriched and Significant Word Emphasized Framework for Hate Speech Detection [3.0460060805145517]
本稿では,メッセージの内容のみに依存し,ヘイトスピーチを自動的に識別するSWE2という新しいヘイトスピーチ検出フレームワークを提案する。
実験結果から,提案モデルでは0.975の精度と0.953のマクロF1が達成され,最先端の7つのベースラインを上回った。
論文 参考訳(メタデータ) (2024-09-25T07:05:44Z) - ViTHSD: Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts [0.0]
まず、ベトナムのソーシャルメディアテキストを対象としたヘイトスピーチ検出データセットViTHSDを紹介する。
データセットには10Kコメントが含まれており、各コメントには、クリーン、攻撃、ヘイトという3つのレベルがある特定のターゲットにラベルが付けられている。
データセットから得られたアノテーション間の合意は、コーエンのカッパ指数によって0.45であり、中程度のレベルとして示される。
論文 参考訳(メタデータ) (2024-04-30T04:16:55Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Assessing the impact of contextual information in hate speech detection [0.48369513656026514]
我々は,Twitter上のメディアからのニュース投稿に対するユーザの反応に基づいた,文脈的ヘイトスピーチ検出のための新しいコーパスを提供する。
このコーパスはリオプラテンセ方言のスペイン語で収集され、新型コロナウイルスのパンデミックに関連するヘイトスピーチに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-02T09:04:47Z) - Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain
Chatbots [24.84440998820146]
本稿では,チャットボットの毒性を定量的に測定する。
一般に利用可能なチャットボットは、有害なクエリを入力した場合、有害な応答を提供する傾向がある。
そこで我々は,GPT-2を微調整して非有害なクエリを生成する攻撃ToxicBuddyの設計と実験を行った。
論文 参考訳(メタデータ) (2022-09-07T20:45:41Z) - Hate Speech Classification Using SVM and Naive BAYES [0.0]
多くの国は、オンラインヘイトスピーチを避けるための法律を開発した。
しかし、オンラインコンテンツが成長を続けるにつれ、ヘイトスピーチが広まる。
ヘイトスピーチを検出して削除するために、オンラインユーザーコンテンツを自動的に処理することが重要である。
論文 参考訳(メタデータ) (2022-03-21T17:15:38Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。