論文の概要: Self-Explaining Hate Speech Detection with Moral Rationales
- arxiv url: http://arxiv.org/abs/2601.03481v1
- Date: Wed, 07 Jan 2026 00:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.159503
- Title: Self-Explaining Hate Speech Detection with Moral Rationales
- Title(参考訳): モラル合理的な自己説明型ヘイト音声検出
- Authors: Francielle Vargas, Jackson Trager, Diego Alves, Surendrabikram Thapa, Matteo Guida, Berk Atil, Daryna Dementieva, Andrew Smart, Ameeta Agrawal,
- Abstract要約: 本稿では,自己説明型ヘイトスピーチ検出フレームワークであるSupervised Moral Rationale Attention (SMRA)を提案する。
モラル・ファンデーションズ理論に基づいて、SMRAはトークンレベルの注意を専門家に注釈付けされた道徳的合理性と整合させ、刺激的な語彙パターンよりも道徳的に有能なスパンに出席するモデルを導く。
- 参考スコア(独自算出の注目度): 11.165386773222934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hate speech detection models rely on surface-level lexical features, increasing vulnerability to spurious correlations and limiting robustness, cultural contextualization, and interpretability. We propose Supervised Moral Rationale Attention (SMRA), the first self-explaining hate speech detection framework to incorporate moral rationales as direct supervision for attention alignment. Based on Moral Foundations Theory, SMRA aligns token-level attention with expert-annotated moral rationales, guiding models to attend to morally salient spans rather than spurious lexical patterns. Unlike prior rationale-supervised or post-hoc approaches, SMRA integrates moral rationale supervision directly into the training objective, producing inherently interpretable and contextualized explanations. To support our framework, we also introduce HateBRMoralXplain, a Brazilian Portuguese benchmark dataset annotated with hate labels, moral categories, token-level moral rationales, and socio-political metadata. Across binary hate speech detection and multi-label moral sentiment classification, SMRA consistently improves performance (e.g., +0.9 and +1.5 F1, respectively) while substantially enhancing explanation faithfulness, increasing IoU F1 (+7.4 pp) and Token F1 (+5.0 pp). Although explanations become more concise, sufficiency improves (+2.3 pp) and fairness remains stable, indicating more faithful rationales without performance or bias trade-offs
- Abstract(参考訳): ヘイトスピーチ検出モデルは、表面レベルの語彙的特徴に依存し、刺激的な相関関係の脆弱性を増大させ、ロバスト性、文化的な文脈化、解釈可能性を制限する。
本稿では,自己説明型ヘイトスピーチ検出フレームワークであるSupervised Moral Rationale Attention (SMRA)を提案する。
モラル・ファンデーションズ理論に基づいて、SMRAはトークンレベルの注意を専門家に注釈付けされた道徳的合理性と整合させ、刺激的な語彙パターンではなく道徳的に有能なスパンに出席するモデルを導く。
従来の合理性指導やポストホックアプローチとは異なり、SMRAは道徳的合理性指導を直接訓練目標に統合し、本質的に解釈可能で文脈化された説明を生み出す。
HateBRMoralXplainは、ヘイトラベル、モラルカテゴリ、トークンレベルの道徳的合理性、社会政治的メタデータを注釈付けしたブラジルのベンチマークデータセットです。
二進的ヘイトスピーチ検出と多ラベル道徳的感情分類では、SMRAは一貫してパフォーマンス(例えば、+0.9、+1.5 F1)を改善し、説明忠実度を大幅に向上させ、IoU F1(+7.4 pp)とToken F1(+5.0 pp)を増加させている。
説明はより簡潔になるが、十分性は向上し(+2.3 pp)、公平性は安定し、パフォーマンスやバイアスのトレードオフのないより忠実な合理性を示す。
関連論文リスト
- Aligning Attention with Human Rationales for Self-Explaining Hate Speech Detection [2.5432391525687748]
Supervised Rational Attention (SRA) は、モデル注意と人間の合理性を明確に整合させるフレームワークである。
SRAはヘイトスピーチ分類における解釈可能性と公平性の両方を改善する。
論文 参考訳(メタデータ) (2025-11-10T12:57:56Z) - MFTCXplain: A Multilingual Benchmark Dataset for Evaluating the Moral Reasoning of LLMs through Multi-hop Hate Speech Explanation [6.477880844490245]
MFT CXplainは、大規模言語モデルの道徳的推論を評価するためのベンチマークデータセットである。
ポルトガル語、イタリア語、ペルシア語、英語に3000のつぶやきがあり、二進的ヘイトスピーチラベル、道徳カテゴリー、テキストスパンレベルの合理性で注釈付けされている。
この結果から,道徳的推論タスクにおけるLLM出力と人間のアノテーションの相違が示唆された。
論文 参考訳(メタデータ) (2025-06-23T19:44:21Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [75.6788742799773]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - What Makes it Ok to Set a Fire? Iterative Self-distillation of Contexts
and Rationales for Disambiguating Defeasible Social and Moral Situations [48.686872351114964]
道徳的または倫理的な判断は、それらが起こる特定の文脈に大きく依存する。
我々は,行動が多かれ少なかれ道徳的に容認されるような,根底的な文脈を提供するという,デファシブルな道徳的推論を導入する。
文脈化と論理の1.2M項目からなる高品質なデータセットを115Kデファシブルな道徳行動のために蒸留する。
論文 参考訳(メタデータ) (2023-10-24T00:51:29Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。