論文の概要: Necessity and Sufficiency for Explaining Text Classifiers: A Case Study
in Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2205.03302v1
- Date: Fri, 6 May 2022 15:34:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 13:10:48.980600
- Title: Necessity and Sufficiency for Explaining Text Classifiers: A Case Study
in Hate Speech Detection
- Title(参考訳): 説明文分類器の必要性と十分性:Hate音声検出を事例として
- Authors: Esma Balkir, Isar Nejadgholi, Kathleen C. Fraser, and Svetlana
Kiritchenko
- Abstract要約: 本稿では,テキスト分類器を記述し,ヘイトスピーチ検出の文脈で解析する特徴属性法を提案する。
我々は2つの相補的で理論的に根ざしたスコア -- 必然性と十分性 -- を提供し、より情報的な説明をもたらす。
提案手法は,テストスイートから得られた同じ例の集合上で異なるヘイトスピーチ検出モデルの予測を解析し,必要条件と有効条件の異なる値が,異なる種類の偽陽性誤りに対応していることを示す。
- 参考スコア(独自算出の注目度): 7.022948483613112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel feature attribution method for explaining text
classifiers, and analyze it in the context of hate speech detection. Although
feature attribution models usually provide a single importance score for each
token, we instead provide two complementary and theoretically-grounded scores
-- necessity and sufficiency -- resulting in more informative explanations. We
propose a transparent method that calculates these values by generating
explicit perturbations of the input text, allowing the importance scores
themselves to be explainable. We employ our method to explain the predictions
of different hate speech detection models on the same set of curated examples
from a test suite, and show that different values of necessity and sufficiency
for identity terms correspond to different kinds of false positive errors,
exposing sources of classifier bias against marginalized groups.
- Abstract(参考訳): 本稿では,テキスト分類器を説明する新しい特徴帰属法を提案し,ヘイトスピーチ検出の文脈で解析する。
特徴属性モデルは、通常、トークンごとに単一の重要なスコアを提供するが、代わりに2つの補足的および理論的に根拠付けられたスコア -- 必要性と十分性 -- を提供する。
そこで本研究では,入力テキストの明示的な摂動を発生させることで,これらの値を計算する透明な手法を提案する。
提案手法は,テストスイートから抽出した同じ例の集合上で異なるヘイトスピーチ検出モデルの予測を解析し,識別項の必要性と十分性の異なる値が,異なる種類の偽陽性誤差に対応し,分類器のバイアス源が辺縁化群に対して現れることを示す。
関連論文リスト
- Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z) - Towards Procedural Fairness: Uncovering Biases in How a Toxic Language
Classifier Uses Sentiment Information [7.022948483613112]
この研究は、不公平なプロセスが不公平な結果をもたらす手続き的公正性を評価するための一歩である。
生成された知識は、トレーニングデータセットにおいてアイデンティティ用語以外の重要な概念が適切に表現されていることを保証するために、デバイアス技術(debiasing techniques)をガイドすることができる。
論文 参考訳(メタデータ) (2022-10-19T16:03:25Z) - Knowledge-based Document Classification with Shannon Entropy [0.0]
そこで我々は,シャノン・エントロピーを用いた知識ベースモデルを提案し,情報の豊かさを計測し,一様で多様なキーワードマッチングを好む。
シャノンエントロピーは偽陽性率の一定レベルにおいてリコールを著しく改善することを示す。
論文 参考訳(メタデータ) (2022-06-06T05:39:10Z) - Understanding Contrastive Learning Requires Incorporating Inductive
Biases [64.56006519908213]
下流タスクにおけるコントラスト学習の成功を理論的に説明しようとする最近の試みは、エム強化の特性とエムコントラスト学習の損失の値によって保証が証明されている。
このような分析は,関数クラスやトレーニングアルゴリズムの帰納的バイアスを無視し,いくつかの設定において不確実な保証につながることを実証する。
論文 参考訳(メタデータ) (2022-02-28T18:59:20Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - SEPP: Similarity Estimation of Predicted Probabilities for Defending and
Detecting Adversarial Text [0.0]
本研究では,予測確率(SEPP)の類似度推定に基づくアンサンブルモデルを提案する。
各種の被害者分類器による敵対的テキストの保護と検出におけるSEPPのレジリエンスを実証する。
論文 参考訳(メタデータ) (2021-10-12T05:36:54Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Toward Scalable and Unified Example-based Explanation and Outlier
Detection [128.23117182137418]
我々は,試行錯誤の予測に例ベースの説明を与えることのできる,プロトタイプベースの学生ネットワークのより広範な採用を論じる。
類似カーネル以外のプロトタイプベースのネットワークは,分類精度を損なうことなく,有意義な説明と有望な外乱検出結果が得られることを示す。
論文 参考訳(メタデータ) (2020-11-11T05:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。