論文の概要: Self-Explaining Hate Speech Detection with Moral Rationales
- arxiv url: http://arxiv.org/abs/2601.03481v1
- Date: Wed, 07 Jan 2026 00:17:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.159503
- Title: Self-Explaining Hate Speech Detection with Moral Rationales
- Title(参考訳): モラル合理的な自己説明型ヘイト音声検出
- Authors: Francielle Vargas, Jackson Trager, Diego Alves, Surendrabikram Thapa, Matteo Guida, Berk Atil, Daryna Dementieva, Andrew Smart, Ameeta Agrawal,
- Abstract要約: 本稿では,自己説明型ヘイトスピーチ検出フレームワークであるSupervised Moral Rationale Attention (SMRA)を提案する。
モラル・ファンデーションズ理論に基づいて、SMRAはトークンレベルの注意を専門家に注釈付けされた道徳的合理性と整合させ、刺激的な語彙パターンよりも道徳的に有能なスパンに出席するモデルを導く。
- 参考スコア(独自算出の注目度): 11.165386773222934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hate speech detection models rely on surface-level lexical features, increasing vulnerability to spurious correlations and limiting robustness, cultural contextualization, and interpretability. We propose Supervised Moral Rationale Attention (SMRA), the first self-explaining hate speech detection framework to incorporate moral rationales as direct supervision for attention alignment. Based on Moral Foundations Theory, SMRA aligns token-level attention with expert-annotated moral rationales, guiding models to attend to morally salient spans rather than spurious lexical patterns. Unlike prior rationale-supervised or post-hoc approaches, SMRA integrates moral rationale supervision directly into the training objective, producing inherently interpretable and contextualized explanations. To support our framework, we also introduce HateBRMoralXplain, a Brazilian Portuguese benchmark dataset annotated with hate labels, moral categories, token-level moral rationales, and socio-political metadata. Across binary hate speech detection and multi-label moral sentiment classification, SMRA consistently improves performance (e.g., +0.9 and +1.5 F1, respectively) while substantially enhancing explanation faithfulness, increasing IoU F1 (+7.4 pp) and Token F1 (+5.0 pp). Although explanations become more concise, sufficiency improves (+2.3 pp) and fairness remains stable, indicating more faithful rationales without performance or bias trade-offs
- Abstract(参考訳): ヘイトスピーチ検出モデルは、表面レベルの語彙的特徴に依存し、刺激的な相関関係の脆弱性を増大させ、ロバスト性、文化的な文脈化、解釈可能性を制限する。
本稿では,自己説明型ヘイトスピーチ検出フレームワークであるSupervised Moral Rationale Attention (SMRA)を提案する。
モラル・ファンデーションズ理論に基づいて、SMRAはトークンレベルの注意を専門家に注釈付けされた道徳的合理性と整合させ、刺激的な語彙パターンではなく道徳的に有能なスパンに出席するモデルを導く。
従来の合理性指導やポストホックアプローチとは異なり、SMRAは道徳的合理性指導を直接訓練目標に統合し、本質的に解釈可能で文脈化された説明を生み出す。
HateBRMoralXplainは、ヘイトラベル、モラルカテゴリ、トークンレベルの道徳的合理性、社会政治的メタデータを注釈付けしたブラジルのベンチマークデータセットです。
二進的ヘイトスピーチ検出と多ラベル道徳的感情分類では、SMRAは一貫してパフォーマンス(例えば、+0.9、+1.5 F1)を改善し、説明忠実度を大幅に向上させ、IoU F1(+7.4 pp)とToken F1(+5.0 pp)を増加させている。
説明はより簡潔になるが、十分性は向上し(+2.3 pp)、公平性は安定し、パフォーマンスやバイアスのトレードオフのないより忠実な合理性を示す。
関連論文リスト
- Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文 参考訳(メタデータ) (2026-01-07T16:16:10Z) - Learning What to Attend First: Modality-Importance-Guided Reasoning for Reliable Multimodal Emotion Understanding [50.014363382140324]
モダリティ・コンパタンス(MI)は、感情に支配的なモダリティを識別するためのシンプルで効果的なメカニズムである。
MIGRは推論シーケンスを再編成し、その説明は対象の感情に対して最も重要なモダリティから始まる。
その結果、MIGRは推論信頼性を大幅に改善し、感情的に矛盾した説明を伴う正しい予測の事例を減少させることがわかった。
論文 参考訳(メタデータ) (2025-12-02T12:29:41Z) - Aligning Attention with Human Rationales for Self-Explaining Hate Speech Detection [2.5432391525687748]
Supervised Rational Attention (SRA) は、モデル注意と人間の合理性を明確に整合させるフレームワークである。
SRAはヘイトスピーチ分類における解釈可能性と公平性の両方を改善する。
論文 参考訳(メタデータ) (2025-11-10T12:57:56Z) - MORABLES: A Benchmark for Assessing Abstract Moral Reasoning in LLMs with Fables [50.29407048003165]
MORABLESは,歴史文献から引用されたファブレットと短編から構築された人間検証ベンチマークである。
主なタスクは、道徳的推論をターゲットとした複数選択の質問として構成されており、モデルが浅く抽出された質問応答を超えるよう挑戦する注意深い注意を払っている。
以上の結果から,より大きなモデルはより小さなモデルよりも優れているが,敵の操作に敏感であり,真の道徳的推論よりも表面的パターンに頼っていることが示唆された。
論文 参考訳(メタデータ) (2025-09-15T19:06:10Z) - "Pull or Not to Pull?'': Investigating Moral Biases in Leading Large Language Models Across Ethical Dilemmas [11.229443362516207]
本研究は,14大言語モデル(LLM)の包括的実証評価である。
我々は3,780の二項決定と自然言語の正当性を抽出し、決定的断定性、説明的回答の整合性、公的な道徳的整合性、倫理的に無関係な手がかりに対する感受性の軸に沿った分析を可能にした。
我々は、LLMのアライメントにおいて、道徳的推論が主軸となることを主張し、LLMが決定するものだけでなく、どのように、なぜかを評価する標準ベンチマークを要求している。
論文 参考訳(メタデータ) (2025-08-10T10:45:16Z) - MFTCXplain: A Multilingual Benchmark Dataset for Evaluating the Moral Reasoning of LLMs through Multi-hop Hate Speech Explanation [6.477880844490245]
MFT CXplainは、大規模言語モデルの道徳的推論を評価するためのベンチマークデータセットである。
ポルトガル語、イタリア語、ペルシア語、英語に3000のつぶやきがあり、二進的ヘイトスピーチラベル、道徳カテゴリー、テキストスパンレベルの合理性で注釈付けされている。
この結果から,道徳的推論タスクにおけるLLM出力と人間のアノテーションの相違が示唆された。
論文 参考訳(メタデータ) (2025-06-23T19:44:21Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [75.6788742799773]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - MORALISE: A Structured Benchmark for Moral Alignment in Visual Language Models [38.0475868976819]
視覚言語モデルは、自律運転や医療分析のような道徳的に敏感な領域に影響を与えている。
我々は,多種多様な専門家による実世界のデータを用いて,視覚言語モデルのモラルアライメントを評価するベンチマークMORALISEを紹介する。
論文 参考訳(メタデータ) (2025-05-20T01:11:17Z) - MoralBERT: A Fine-Tuned Language Model for Capturing Moral Values in Social Discussions [4.747987317906765]
道徳的価値は、情報を評価し、意思決定し、重要な社会問題に関する判断を形成する上で、基本的な役割を担います。
自然言語処理(NLP)の最近の進歩は、人文コンテンツにおいて道徳的価値を測ることができることを示している。
本稿では、社会談話における道徳的感情を捉えるために微調整された言語表現モデルであるMoralBERTを紹介する。
論文 参考訳(メタデータ) (2024-03-12T14:12:59Z) - What Makes it Ok to Set a Fire? Iterative Self-distillation of Contexts
and Rationales for Disambiguating Defeasible Social and Moral Situations [48.686872351114964]
道徳的または倫理的な判断は、それらが起こる特定の文脈に大きく依存する。
我々は,行動が多かれ少なかれ道徳的に容認されるような,根底的な文脈を提供するという,デファシブルな道徳的推論を導入する。
文脈化と論理の1.2M項目からなる高品質なデータセットを115Kデファシブルな道徳行動のために蒸留する。
論文 参考訳(メタデータ) (2023-10-24T00:51:29Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。