論文の概要: xList-Hate: A Checklist-Based Framework for Interpretable and Generalizable Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2602.05874v1
- Date: Thu, 05 Feb 2026 16:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.059307
- Title: xList-Hate: A Checklist-Based Framework for Interpretable and Generalizable Hate Speech Detection
- Title(参考訳): xList-Hate: 解釈および一般化可能なヘイト音声検出のためのチェックリストベースフレームワーク
- Authors: Adrián Girón, Pablo Miralles, Javier Huertas-Tato, Sergio D'Antonio, David Camacho,
- Abstract要約: 我々は、ヘイトスピーチ検出を明示的な概念レベルの質問のチェックリストに分解する診断フレームワークであるxList-Hateを紹介する。
診断信号は軽量で完全に解釈可能な決定木で集約され、透明で監査可能な予測が得られる。
以上の結果から,モノリシックな分類問題ではなく,診断的理由づけタスクとしてヘイトスピーチの検出をリフレーミングすることが示唆された。
- 参考スコア(独自算出の注目度): 2.647843453311735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hate speech detection is commonly framed as a direct binary classification problem despite being a composite concept defined through multiple interacting factors that vary across legal frameworks, platform policies, and annotation guidelines. As a result, supervised models often overfit dataset-specific definitions and exhibit limited robustness under domain shift and annotation noise. We introduce xList-Hate, a diagnostic framework that decomposes hate speech detection into a checklist of explicit, concept-level questions grounded in widely shared normative criteria. Each question is independently answered by a large language model (LLM), producing a binary diagnostic representation that captures hateful content features without directly predicting the final label. These diagnostic signals are then aggregated by a lightweight, fully interpretable decision tree, yielding transparent and auditable predictions. We evaluate it across multiple hate speech benchmarks and model families, comparing it against zero-shot LLM classification and in-domain supervised fine-tuning. While supervised methods typically maximize in-domain performance, we consistently improves cross-dataset robustness and relative performance under domain shift. In addition, qualitative analysis of disagreement cases provides evidence that the framework can be less sensitive to certain forms of annotation inconsistency and contextual ambiguity. Crucially, the approach enables fine-grained interpretability through explicit decision paths and factor-level analysis. Our results suggest that reframing hate speech detection as a diagnostic reasoning task, rather than a monolithic classification problem, provides a robust, explainable, and extensible alternative for content moderation.
- Abstract(参考訳): ヘイトスピーチ検出は、法的枠組み、プラットフォームポリシー、アノテーションガイドラインによって異なる複数の相互作用要因によって定義される複合概念であるにもかかわらず、直接二分分類問題として一般的に考えられている。
結果として、教師付きモデルはデータセット固有の定義を過度に適合させ、ドメインシフトやアノテーションノイズの下では限定的な堅牢性を示す。
我々は、ヘイトスピーチ検出を分解する診断フレームワークであるxList-Hateを、広く共有されている規範的基準に基づく明示的で概念レベルの質問のチェックリストに導入する。
各質問は、大言語モデル(LLM)によって独立に答えられ、最終ラベルを直接予測することなく、ヘイトフルなコンテンツ特徴をキャプチャするバイナリ診断表現を生成する。
これらの診断信号は、軽量で完全に解釈可能な決定木によって集約され、透明で監査可能な予測が得られる。
複数のヘイトスピーチベンチマークとモデルファミリーで評価し、ゼロショットLLM分類とドメイン内教師あり微調整と比較した。
教師付きメソッドは通常、ドメイン内のパフォーマンスを最大化するが、ドメインシフト時のデータセット間の堅牢性と相対的なパフォーマンスは一貫して改善する。
さらに、不一致事例の質的分析は、このフレームワークがある種のアノテーションの不整合や文脈的曖昧さに対してより敏感であることを示す。
重要なことは、このアプローチは明確な決定パスと因子レベルの分析を通じて、きめ細かい解釈を可能にする。
以上の結果から,モノリシックな分類問題ではなく,診断的推論タスクとしてのヘイトスピーチ検出のリフレーミングが,コンテンツモデレーションの頑健で説明可能な,拡張可能な代替手段となることが示唆された。
関連論文リスト
- AQAScore: Evaluating Semantic Alignment in Text-to-Audio Generation via Audio Question Answering [97.52852990265136]
音声対応大規模言語モデルの推論機能を活用するバックボーン非依存評価フレームワークであるAQAScoreを紹介する。
AQAScoreは人格関連性、ペア比較、構成推論タスクを含む複数のベンチマークで評価する。
論文 参考訳(メタデータ) (2026-01-21T07:35:36Z) - CLASH: A Benchmark for Cross-Modal Contradiction Detection [15.134491772506196]
CLASHはマルチモーダル矛盾検出のための新しいベンチマークである。
COCOイメージは、制御対象レベルの矛盾や属性レベルの矛盾を含む矛盾したキャプションと組み合わせられる。
論文 参考訳(メタデータ) (2025-11-24T15:09:07Z) - Multi-Rationale Explainable Object Recognition via Contrastive Conditional Inference [1.2309843977641421]
本稿では,各画像に複数の接頭辞を付加したデータセットを含む多段階的説明可能なオブジェクト認識ベンチマークを提案する。
本稿では,画像埋め込み,カテゴリラベル,合理性間の確率的関係を明示的にモデル化するコントラスト的条件推論フレームワークを提案する。
提案手法は, 高速ゼロショット性能を含む多段階的説明可能なオブジェクト認識ベンチマークにおいて, 最先端の結果を達成している。
論文 参考訳(メタデータ) (2025-08-19T21:28:12Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Improving Hate Speech Classification with Cross-Taxonomy Dataset Integration [0.0]
この研究は、単一のフレームワーク内で幅広い定義を検出することができる普遍的な分類法とヘイトスピーチ分類法を導入している。
我々のアプローチは、2つの広く使われているが異なる注釈付きデータセットを組み合わせることで検証される。
この研究は、ヘイトスピーチの検出を推進し、効率を向上し、コンテキスト間の広範な適用性を確保する上で、データセットと分類学の統合の可能性を強調している。
論文 参考訳(メタデータ) (2025-03-07T12:01:02Z) - Subjective Logic Encodings [20.458601113219697]
データパースペクティビズムは、アノテーション間の不一致を利用してモデルを学習しようとする。
主観論理SLEはアノテーションをアノテータの意見として明示的にエンコードする分類対象を構築するためのフレームワークである。
論文 参考訳(メタデータ) (2025-02-17T15:14:10Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。