論文の概要: HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse
- arxiv url: http://arxiv.org/abs/2603.02684v1
- Date: Tue, 03 Mar 2026 07:26:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.686749
- Title: HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse
- Title(参考訳): HateMirage: Faux HateとSubtle Online Abuseをデコードするための説明可能な多次元データセット
- Authors: Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya, Md. Shad Akhtar,
- Abstract要約: 我々は、Faux Hateコメントの新しいデータセットであるHateMirageを紹介する。
各コメントは、Target、Intent、Implicationの3つの解釈可能な次元に沿って注釈付けされる。
ROUGE-L F1とSentence-BERTの類似性を用いて,HateMirage上の複数のオープンソース言語モデルをベンチマークし,コヒーレンスの評価を行った。
- 参考スコア(独自算出の注目度): 12.969019733646414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subtle and indirect hate speech remains an underexplored challenge in online safety research, particularly when harmful intent is embedded within misleading or manipulative narratives. Existing hate speech datasets primarily capture overt toxicity, underrepresenting the nuanced ways misinformation can incite or normalize hate. To address this gap, we present HateMirage, a novel dataset of Faux Hate comments designed to advance reasoning and explainability research on hate emerging from fake or distorted narratives. The dataset was constructed by identifying widely debunked misinformation claims from fact-checking sources and tracing related YouTube discussions, resulting in 4,530 user comments. Each comment is annotated along three interpretable dimensions: Target (who is affected), Intent (the underlying motivation or goal behind the comment), and Implication (its potential social impact). Unlike prior explainability datasets such as HateXplain and HARE, which offer token-level or single-dimensional reasoning, HateMirage introduces a multi-dimensional explanation framework that captures the interplay between misinformation, harm, and social consequence. We benchmark multiple open-source language models on HateMirage using ROUGE-L F1 and Sentence-BERT similarity to assess explanation coherence. Results suggest that explanation quality may depend more on pretraining diversity and reasoning-oriented data rather than on model scale alone. By coupling misinformation reasoning with harm attribution, HateMirage establishes a new benchmark for interpretable hate detection and responsible AI research.
- Abstract(参考訳): 必然的かつ間接的なヘイトスピーチは、特に誤解を招く物語や操作的な物語の中に有害な意図が埋め込まれている場合、オンライン安全研究において未解決の課題である。
既存のヘイトスピーチデータセットは、主に過度な毒性を捉え、誤報がヘイトを引用したり正常にしたりできるニュアンスなやり方を過小評価している。
HateMirageは、偽の物語や歪んだ物語から生まれた憎悪に関する推論と説明可能性の研究を促進するために設計された、Faux Hateのコメントのデータセットである。
このデータセットは、ファクトチェックソースから広く拡散した誤情報を識別し、関連するYouTubeの議論を追跡した結果、4,530人のユーザーコメントが得られた。
それぞれのコメントは、3つの解釈可能な次元に沿って注釈付けされる: ターゲット(誰が影響を受けているか)、インテント(コメントの背後にある動機や目標)、インプリケーション(潜在的社会的影響)。
HateXplainやHAREのようなトークンレベルや単一次元の推論を提供する以前の説明可能性データセットとは異なり、HateMirageでは、誤情報、害、社会的帰結の間の相互作用をキャプチャする多次元の説明フレームワークを導入している。
ROUGE-L F1とSentence-BERTの類似性を用いて,HateMirage上の複数のオープンソース言語モデルをベンチマークし,コヒーレンスの評価を行った。
結果から,モデルスケールのみではなく,事前学習した多様性や推論指向のデータに依存する可能性が示唆された。
HateMirageは、誤情報推論と有害な帰属を結びつけることによって、ヘイト検出の解釈と責任あるAI研究のための新しいベンチマークを確立する。
関連論文リスト
- Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning [79.95774256444956]
ビジョンランゲージモデルにおける推論能力の欠如は研究談話の最前線に留まっている。
実用理論のレンズを用いて, 一般的なVLMのOpenCLIP, LLaVA-1.5, Molmoの基盤となるデータについて検討した。
論文 参考訳(メタデータ) (2026-02-26T18:54:06Z) - Seeing Through Deception: Uncovering Misleading Creator Intent in Multimodal News with Vision-Language Models [65.23999399834638]
DeceptionDecodedは,信頼に値する参照記事に基づく12,000のイメージキャプチャペアのベンチマークである。
データセットは、誤解を招くケースと、誤解を招くケースの両方をキャプチャし、視覚的およびテキスト的モダリティにわたって操作する。
インテント中心の3つのタスク – 意図の検出を誤解させる、ソースの属性を誤解させる、創造的欲求推論 – をサポートしている。
論文 参考訳(メタデータ) (2025-05-21T13:14:32Z) - Missci: Reconstructing Fallacies in Misrepresented Science [84.32990746227385]
ソーシャルネットワーク上の健康関連の誤報は、意思決定の貧弱さと現実世界の危険につながる可能性がある。
ミスシは、誤った推論のための新しい議論理論モデルである。
大規模言語モデルの批判的推論能力をテストするためのデータセットとしてMissciを提案する。
論文 参考訳(メタデータ) (2024-06-05T12:11:10Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - HARE: Explainable Hate Speech Detection with Step-by-Step Reasoning [29.519687405350304]
本稿では,大規模言語モデル(LLM)の推論能力を利用して,ヘイトスピーチの説明のギャップを埋めるヘイトスピーチ検出フレームワークHAREを紹介する。
SBICとImplicit Hateベンチマークの実験では、モデル生成データを用いた手法がベースラインを一貫して上回ることを示した。
提案手法は,訓練されたモデルの説明品質を高め,未知のデータセットへの一般化を改善する。
論文 参考訳(メタデータ) (2023-11-01T06:09:54Z) - Revisiting Hate Speech Benchmarks: From Data Curation to System
Deployment [26.504056750529124]
GOTHateは、Twitterからヘイトスピーチを検出するために約51万の投稿をクラウドソースした大規模クラウドソースデータセットである。
最近の10のベースラインでベンチマークを行い、内因性信号の追加がヘイトスピーチ検出タスクをどのように強化するかを検討する。
我々のHEN-mBERTは多言語混合実験モデルであり、潜在内因性信号で言語的部分空間を豊かにする。
論文 参考訳(メタデータ) (2023-06-01T19:36:52Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - An Information Retrieval Approach to Building Datasets for Hate Speech
Detection [3.587367153279349]
「一般的な慣行は、既知の憎しみの言葉を含むツイートを注釈するだけである。」
第二の課題は、ヘイトスピーチの定義が高度に変動し、主観的である傾向があることである。
我々の重要な洞察は、ヘイトスピーチの希少性と主観性が情報検索(IR)の関連性に類似していることである。
論文 参考訳(メタデータ) (2021-06-17T19:25:39Z) - HateXplain: A Benchmark Dataset for Explainable Hate Speech Detection [27.05719607624675]
この問題の複数の側面をカバーする最初のベンチマークヘイトスピーチデータセットであるHateXplainを紹介した。
データセット内の各投稿は、3つの異なる視点からアノテートされます。
トレーニングに人間の合理性を利用するモデルは、目標とするコミュニティに対する意図しない偏見を減らすのに優れている。
論文 参考訳(メタデータ) (2020-12-18T15:12:14Z) - Transfer Learning for Hate Speech Detection in Social Media [14.759208309842178]
本稿では、2つの独立したデータセットを協調的に活用するために転送学習手法を用いる。
我々は、構築されたヘイトスピーチ表現の解釈可能な2次元可視化ツールを構築します。
この共同表現は,限られた監督範囲の場合にのみ予測性能が向上することを示す。
論文 参考訳(メタデータ) (2019-06-10T08:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。