論文の概要: HateXScore: A Metric Suite for Evaluating Reasoning Quality in Hate Speech Explanations
- arxiv url: http://arxiv.org/abs/2601.13547v1
- Date: Tue, 20 Jan 2026 03:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.133963
- Title: HateXScore: A Metric Suite for Evaluating Reasoning Quality in Hate Speech Explanations
- Title(参考訳): HateXScore: ヘイトスピーチ説明における推論品質評価用メトリクススイート
- Authors: Yujia Hu, Roy Ka-Wei Lee,
- Abstract要約: textsfHateXScoreは、モデル説明の推論品質を評価するために設計されたメトリクススイートである。
ヘイトスピーチのデータセットを6つ評価しました
- 参考スコア(独自算出の注目度): 14.319303979130671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hateful speech detection is a key component of content moderation, yet current evaluation frameworks rarely assess why a text is deemed hateful. We introduce \textsf{HateXScore}, a four-component metric suite designed to evaluate the reasoning quality of model explanations. It assesses (i) conclusion explicitness, (ii) faithfulness and causal grounding of quoted spans, (iii) protected group identification (policy-configurable), and (iv) logical consistency among these elements. Evaluated on six diverse hate speech datasets, \textsf{HateXScore} is intended as a diagnostic complement to reveal interpretability failures and annotation inconsistencies that are invisible to standard metrics like Accuracy or F1. Moreover, human evaluation shows strong agreement with \textsf{HateXScore}, validating it as a practical tool for trustworthy and transparent moderation. \textcolor{red}{Disclaimer: This paper contains sensitive content that may be disturbing to some readers.}
- Abstract(参考訳): ヘイトな音声検出はコンテンツモデレーションの重要な要素であるが、現在の評価フレームワークは、なぜテキストが憎悪であると考えられるかを評価することは滅多にない。
本稿では、モデル説明の推論品質を評価するために設計された4成分の計量スイートである「textsf{HateXScore}」を紹介する。
評価する
From conclusion + -ness.
(二)引用したスパンの忠実さ及び因果的根拠
(三)集団識別(政治設定可能)及び
(四)これらの要素間の論理的整合性
6つの多様なヘイトスピーチデータセットに基づいて評価された \textsf{HateXScore} は、精度やF1のような標準メトリクスでは見えない解釈可能性障害とアノテーションの不整合を明らかにするための診断補完として意図されている。
さらに、人間の評価は、信頼性と透明なモデレーションのための実用的なツールとして検証し、textsf{HateXScore}と強く一致している。
textcolor{red}{Disclaimer: この論文には、一部の読者にとって邪魔になる可能性のあるセンシティブなコンテンツが含まれています。
※
関連論文リスト
- xList-Hate: A Checklist-Based Framework for Interpretable and Generalizable Hate Speech Detection [2.647843453311735]
我々は、ヘイトスピーチ検出を明示的な概念レベルの質問のチェックリストに分解する診断フレームワークであるxList-Hateを紹介する。
診断信号は軽量で完全に解釈可能な決定木で集約され、透明で監査可能な予測が得られる。
以上の結果から,モノリシックな分類問題ではなく,診断的理由づけタスクとしてヘイトスピーチの検出をリフレーミングすることが示唆された。
論文 参考訳(メタデータ) (2026-02-05T16:51:56Z) - Cross-Examination Framework: A Task-Agnostic Diagnostic for Information Fidelity in Text-to-Text Generation [1.405010905897415]
BLEUやBERTScoreといった従来のメトリクスは、生成テキストからテキストへのタスクのセマンティックな忠実さをキャプチャできない。
我々は,参照のない多次元評価にCEF(Cross-Examination Framework)を適用した。
CEFは各テキストから検証可能な質問を生成し、相互検査を行い、3つの解釈可能なスコア(カバレッジ、整合性、一貫性)を導出する。
論文 参考訳(メタデータ) (2026-01-27T08:30:13Z) - AQAScore: Evaluating Semantic Alignment in Text-to-Audio Generation via Audio Question Answering [97.52852990265136]
音声対応大規模言語モデルの推論機能を活用するバックボーン非依存評価フレームワークであるAQAScoreを紹介する。
AQAScoreは人格関連性、ペア比較、構成推論タスクを含む複数のベンチマークで評価する。
論文 参考訳(メタデータ) (2026-01-21T07:35:36Z) - SMILE: A Composite Lexical-Semantic Metric for Question-Answering Evaluation [55.26111461168754]
本稿では,文レベルの意味理解とキーワードレベルの意味理解と簡単なキーワードマッチングを組み合わせた新しいアプローチであるSemantic Metric Integrating Lexical Exactnessを紹介する。
人間の判断と計算学的に軽量であり、語彙的評価と意味的評価のギャップを埋める。
論文 参考訳(メタデータ) (2025-11-21T17:30:18Z) - SCORE: A Semantic Evaluation Framework for Generative Document Parsing [2.5101597298392098]
マルチモーダル生成文書解析システムは意味論的に正しいが構造的に異なる出力を生成する。
従来のメトリクス-CER, WER, IoU, TEDS-misclassized such diversity as error, penalizing valid interpretations and obscuring system behavior。
SCORE, (i) 調整した編集距離を頑健な内容の忠実度と統合する解釈非依存のフレームワーク, (ii) トークンレベルの診断で幻覚と排便を区別する, (iii) 空間的寛容とセマンティックアライメントによるテーブル評価, (iv) 階層対応の整合性チェックを紹介する。
論文 参考訳(メタデータ) (2025-09-16T16:06:19Z) - The Medium Is Not the Message: Deconfounding Document Embeddings via Linear Concept Erasure [98.71456610527598]
埋め込みベースの類似度メトリクスは、テキストのソースや言語のような刺激的な属性に影響される可能性がある。
本稿では,エンコーダ表現から観測された共同創設者に関する情報を除去するデバイアスアルゴリズムにより,これらのバイアスを最小の計算コストで大幅に低減することを示す。
論文 参考訳(メタデータ) (2025-07-01T23:17:12Z) - ImpScore: A Learnable Metric For Quantifying The Implicitness Level of Sentence [40.4052848203136]
インプシット言語は, 自然言語処理システムにおいて, 正確なテキスト理解を実現し, ユーザとの自然な対話を促進するために不可欠である。
本稿では,外部参照に頼ることなく,言語の暗黙度を定量化するスカラー計量を開発した。
InmpScoreのユーザによる評価を,アウト・オブ・ディストリビューションデータに基づく人間による評価と比較することで検証する。
論文 参考訳(メタデータ) (2024-11-07T20:23:29Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Evaluating Text Classification Robustness to Part-of-Speech Adversarial Examples [0.6445605125467574]
逆の例は意思決定プロセスを騙すために設計された入力であり、人間には理解できないことを意図している。
テキストベースの分類システムでは、入力の変更(テキストの文字列)は常に認識可能である。
テキストベースの逆数例の質を向上させるためには、入力テキストのどの要素に注目する価値があるかを知る必要がある。
論文 参考訳(メタデータ) (2024-08-15T18:33:54Z) - Evaluating D-MERIT of Partial-annotation on Information Retrieval [77.44452769932676]
検索モデルは、部分的に注釈付けされたデータセットでしばしば評価される。
部分的に注釈付けされたデータセットを評価に用いると歪んだ絵が描けることを示す。
論文 参考訳(メタデータ) (2024-06-23T08:24:08Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - Necessity and Sufficiency for Explaining Text Classifiers: A Case Study
in Hate Speech Detection [7.022948483613112]
本稿では,テキスト分類器を記述し,ヘイトスピーチ検出の文脈で解析する特徴属性法を提案する。
我々は2つの相補的で理論的に根ざしたスコア -- 必然性と十分性 -- を提供し、より情報的な説明をもたらす。
提案手法は,テストスイートから得られた同じ例の集合上で異なるヘイトスピーチ検出モデルの予測を解析し,必要条件と有効条件の異なる値が,異なる種類の偽陽性誤りに対応していることを示す。
論文 参考訳(メタデータ) (2022-05-06T15:34:48Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。