論文の概要: Beyond Accuracy: An Explainability-Driven Analysis of Harmful Content Detection
- arxiv url: http://arxiv.org/abs/2603.18015v1
- Date: Tue, 24 Feb 2026 16:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.388249
- Title: Beyond Accuracy: An Explainability-Driven Analysis of Harmful Content Detection
- Title(参考訳): Beyond Accuracy: 説明責任駆動型分析による有害コンテンツ検出
- Authors: Trishita Dhara, Siddhesh Sheth,
- Abstract要約: Civil Commentsデータセットでトレーニングされた神経有害コンテンツ検出モデルを、説明可能性駆動型で分析する。
2つの一般的なポストホックな説明手法、Shapley Additive ExplanationsとIntegrated Gradientsが使用されている。
曲線0.93の領域と精度0.94の領域が強い総合的な性能にもかかわらず、この分析は総合評価指標だけでは観測できない限界を明らかにしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although automated harmful content detection systems are frequently used to monitor online platforms, moderators and end users frequently cannot understand the logic underlying their predictions. While recent studies have focused on increasing classification accuracy, little focus has been placed on comprehending why neural models identify content as harmful, especially when it comes to borderline, contextual, and politically sensitive situations. In this work, a neural harmful content detection model trained on the Civil Comments dataset is analyzed explainability-drivenly. Two popular post-hoc explanation methods, Shapley Additive Explanations and Integrated Gradients, are used to analyze the behavior of a RoBERTa-based classifier in both correct predictions and systematic failure cases. Despite strong overall performance, with an area under the curve of 0.93 and an accuracy of 0.94, the analysis reveals limitations that are not observable from aggregate evaluation metrics alone. Integrated Gradients appear to extract more diffuse contextual attributions while Shapley Additive Explanations extract more focused attributions on explicit lexical cues. The consequent divergence in their outputs manifests in both false negatives and false positives. Qualitative case studies reveal recurring failure modes such as indirect toxicity, lexical over-attribution, or political discourse. The results suggest that explainable AI can foster human-in-the-loop moderation by exposing model uncertainty and increasing the interpretable rationale behind automated decisions. Most importantly, this work highlights the role of explainability as a transparency and diagnostic resource for online harmful content detection systems rather than as a performance-enhancing lever.
- Abstract(参考訳): 自動化された有害コンテンツ検出システムは、オンラインプラットフォームを監視するために頻繁に使用されるが、モデレーターやエンドユーザは、予測の根底にあるロジックをよく理解できない。
近年の研究では、分類精度の向上に焦点が当てられているが、特に境界線、文脈、政治的にセンシティブな状況において、なぜ神経モデルがコンテンツが有害であるかを理解することにはほとんど焦点が当てられていない。
本研究では、Civil Commentsデータセットでトレーニングされたニューラルネットワークによる有害コンテンツ検出モデルを、説明可能性駆動型で分析する。
2つの一般的なポストホックな説明手法、Shapley Additive ExplanationsとIntegrated Gradientsは、RoBERTaベースの分類器の動作を、正しい予測と系統的な障害ケースの両方で分析するために使用される。
曲線0.93の領域と精度0.94の領域が強い総合的な性能にもかかわらず、この分析は総合評価指標だけでは観測できない限界を明らかにしている。
統合的なグラディエントはより拡散した文脈的帰属を抽出し、シェープな加法的説明は明示的な語彙的帰属をより集中した帰属を抽出する。
結果の相違は偽陰性と偽陽性の両方に現れる。
定性的なケーススタディでは、間接毒性、語彙過剰寄与、政治的言論のような繰り返し発生する障害モードが示される。
その結果、モデルの不確実性を露呈し、自動決定の背後にある解釈可能な理論的根拠を増大させることにより、説明可能なAIは、ループ中の人間のモデレーションを促進することが示唆された。
最も重要なことは、この研究は、パフォーマンス向上レバーではなく、オンラインの有害コンテンツ検出システムにおける透明性と診断リソースとしての説明可能性の役割を強調している。
関連論文リスト
- Empirical Analysis of Adversarial Robustness and Explainability Drift in Cybersecurity Classifiers [0.0]
本稿では,2つのサイバーセキュリティ領域にまたがる敵対的堅牢性と説明可能性に関する実証的研究について述べる。
精度摂動曲線の領域として定義される量的指標であるロバストネス指数(RI)を導入する。
Phishing WebサイトとNB15データセットの実験では、一貫性のある堅牢性傾向が示されている。
論文 参考訳(メタデータ) (2026-02-06T05:30:37Z) - The Dead Salmons of AI Interpretability [9.722180905657268]
AIの解釈可能性では、同様の'デッド・サーモン'アーティファクトの報告が増えている。
我々は現実的な統計的因果リフレーミングを主張する。
論文 参考訳(メタデータ) (2025-12-21T16:07:44Z) - Where Did It Go Wrong? Attributing Undesirable LLM Behaviors via Representation Gradient Tracing [12.835224376066769]
大きな言語モデル(LLM)は目覚ましい機能を示しているが、そのデプロイメントは望ましくない振る舞いによってしばしば損なわれている。
本稿では,表現とその勾配を解析することによって,望ましくないLCMの挙動を診断する,新しい,効率的なフレームワークを提案する。
本手法は,有害な内容の追跡,バックドア中毒の検出,知識汚染の同定などのタスクに対して,系統的に評価する。
論文 参考訳(メタデータ) (2025-09-26T12:07:47Z) - Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection [49.26064449816502]
本研究では,テキスト・視覚バイアスと共起バイアスに対処するために,グラディエントベースのインフルエンス・アウェア制約付きデコーディング(GACD)手法を提案する。
GACDは幻覚を効果的に低減し、MLLM出力の視覚的接地を改善する。
論文 参考訳(メタデータ) (2025-09-03T08:13:52Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Topological Interpretability for Deep-Learning [0.30806551485143496]
ディープラーニング(DL)モデルは、予測の確実性を定量化できない。
本研究は,臨床および非臨床のテキストに基づいて訓練された2つのDL分類モデルにおいて,特徴を推測する手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:38:13Z) - Toxicity Detection with Generative Prompt-based Inference [3.9741109244650823]
言語モデル(LM)は、望ましくない内容を含むコーパスで訓練され、バイアスや毒性を示す能力を持つことは、長年にわたって知られていたリスクである。
本研究では,ゼロショットプロンプトによる毒性検出の生成的変異について検討し,プロンプトエンジニアリングに関する総合的な試行を行った。
論文 参考訳(メタデータ) (2022-05-24T22:44:43Z) - The Hidden Uncertainty in a Neural Networks Activations [105.4223982696279]
ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。
本研究は、この分布が、モデルの不確実性と相関しているかどうかを考察し、新しい入力に一般化する能力を示す。
論文 参考訳(メタデータ) (2020-12-05T17:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。