論文の概要: HateXScore: A Metric Suite for Evaluating Reasoning Quality in Hate Speech Explanations
- arxiv url: http://arxiv.org/abs/2601.13547v1
- Date: Tue, 20 Jan 2026 03:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.133963
- Title: HateXScore: A Metric Suite for Evaluating Reasoning Quality in Hate Speech Explanations
- Title(参考訳): HateXScore: ヘイトスピーチ説明における推論品質評価用メトリクススイート
- Authors: Yujia Hu, Roy Ka-Wei Lee,
- Abstract要約: textsfHateXScoreは、モデル説明の推論品質を評価するために設計されたメトリクススイートである。
ヘイトスピーチのデータセットを6つ評価しました
- 参考スコア(独自算出の注目度): 14.319303979130671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hateful speech detection is a key component of content moderation, yet current evaluation frameworks rarely assess why a text is deemed hateful. We introduce \textsf{HateXScore}, a four-component metric suite designed to evaluate the reasoning quality of model explanations. It assesses (i) conclusion explicitness, (ii) faithfulness and causal grounding of quoted spans, (iii) protected group identification (policy-configurable), and (iv) logical consistency among these elements. Evaluated on six diverse hate speech datasets, \textsf{HateXScore} is intended as a diagnostic complement to reveal interpretability failures and annotation inconsistencies that are invisible to standard metrics like Accuracy or F1. Moreover, human evaluation shows strong agreement with \textsf{HateXScore}, validating it as a practical tool for trustworthy and transparent moderation. \textcolor{red}{Disclaimer: This paper contains sensitive content that may be disturbing to some readers.}
- Abstract(参考訳): ヘイトな音声検出はコンテンツモデレーションの重要な要素であるが、現在の評価フレームワークは、なぜテキストが憎悪であると考えられるかを評価することは滅多にない。
本稿では、モデル説明の推論品質を評価するために設計された4成分の計量スイートである「textsf{HateXScore}」を紹介する。
評価する
From conclusion + -ness.
(二)引用したスパンの忠実さ及び因果的根拠
(三)集団識別(政治設定可能)及び
(四)これらの要素間の論理的整合性
6つの多様なヘイトスピーチデータセットに基づいて評価された \textsf{HateXScore} は、精度やF1のような標準メトリクスでは見えない解釈可能性障害とアノテーションの不整合を明らかにするための診断補完として意図されている。
さらに、人間の評価は、信頼性と透明なモデレーションのための実用的なツールとして検証し、textsf{HateXScore}と強く一致している。
textcolor{red}{Disclaimer: この論文には、一部の読者にとって邪魔になる可能性のあるセンシティブなコンテンツが含まれています。
※
関連論文リスト
- SMILE: A Composite Lexical-Semantic Metric for Question-Answering Evaluation [55.26111461168754]
本稿では,文レベルの意味理解とキーワードレベルの意味理解と簡単なキーワードマッチングを組み合わせた新しいアプローチであるSemantic Metric Integrating Lexical Exactnessを紹介する。
人間の判断と計算学的に軽量であり、語彙的評価と意味的評価のギャップを埋める。
論文 参考訳(メタデータ) (2025-11-21T17:30:18Z) - The Medium Is Not the Message: Deconfounding Document Embeddings via Linear Concept Erasure [98.71456610527598]
埋め込みベースの類似度メトリクスは、テキストのソースや言語のような刺激的な属性に影響される可能性がある。
本稿では,エンコーダ表現から観測された共同創設者に関する情報を除去するデバイアスアルゴリズムにより,これらのバイアスを最小の計算コストで大幅に低減することを示す。
論文 参考訳(メタデータ) (2025-07-01T23:17:12Z) - ImpScore: A Learnable Metric For Quantifying The Implicitness Level of Sentence [40.4052848203136]
インプシット言語は, 自然言語処理システムにおいて, 正確なテキスト理解を実現し, ユーザとの自然な対話を促進するために不可欠である。
本稿では,外部参照に頼ることなく,言語の暗黙度を定量化するスカラー計量を開発した。
InmpScoreのユーザによる評価を,アウト・オブ・ディストリビューションデータに基づく人間による評価と比較することで検証する。
論文 参考訳(メタデータ) (2024-11-07T20:23:29Z) - Evaluating Text Classification Robustness to Part-of-Speech Adversarial Examples [0.6445605125467574]
逆の例は意思決定プロセスを騙すために設計された入力であり、人間には理解できないことを意図している。
テキストベースの分類システムでは、入力の変更(テキストの文字列)は常に認識可能である。
テキストベースの逆数例の質を向上させるためには、入力テキストのどの要素に注目する価値があるかを知る必要がある。
論文 参考訳(メタデータ) (2024-08-15T18:33:54Z) - Evaluating D-MERIT of Partial-annotation on Information Retrieval [77.44452769932676]
検索モデルは、部分的に注釈付けされたデータセットでしばしば評価される。
部分的に注釈付けされたデータセットを評価に用いると歪んだ絵が描けることを示す。
論文 参考訳(メタデータ) (2024-06-23T08:24:08Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Necessity and Sufficiency for Explaining Text Classifiers: A Case Study
in Hate Speech Detection [7.022948483613112]
本稿では,テキスト分類器を記述し,ヘイトスピーチ検出の文脈で解析する特徴属性法を提案する。
我々は2つの相補的で理論的に根ざしたスコア -- 必然性と十分性 -- を提供し、より情報的な説明をもたらす。
提案手法は,テストスイートから得られた同じ例の集合上で異なるヘイトスピーチ検出モデルの予測を解析し,必要条件と有効条件の異なる値が,異なる種類の偽陽性誤りに対応していることを示す。
論文 参考訳(メタデータ) (2022-05-06T15:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。