論文の概要: Concept-Based Interpretability for Toxicity Detection
- arxiv url: http://arxiv.org/abs/2511.16689v1
- Date: Sat, 15 Nov 2025 14:53:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.75002
- Title: Concept-Based Interpretability for Toxicity Detection
- Title(参考訳): 毒性検出のための概念に基づく解釈可能性
- Authors: Samarth Garg, Deeksha Varshney, Divya Singh,
- Abstract要約: ターゲットクラスに対する概念の不均等な帰属は、しばしば分類エラーを引き起こす。
本研究では,概念グラディエント(CG)法に基づく解釈可能性手法を提案する。
テキスト分類モデルにおける誤分類に寄与する有毒な単語のキュレーションを提案する。
- 参考スコア(独自算出の注目度): 3.66086430438787
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rise of social networks has not only facilitated communication but also allowed the spread of harmful content. Although significant advances have been made in detecting toxic language in textual data, the exploration of concept-based explanations in toxicity detection remains limited. In this study, we leverage various subtype attributes present in toxicity detection datasets, such as obscene, threat, insult, identity attack, and sexual explicit as concepts that serve as strong indicators to identify whether language is toxic. However, disproportionate attribution of concepts towards the target class often results in classification errors. Our work introduces an interpretability technique based on the Concept Gradient (CG) method which provides a more causal interpretation by measuring how changes in concepts directly affect the output of the model. This is an extension of traditional gradient-based methods in machine learning, which often focus solely on input features. We propose the curation of Targeted Lexicon Set, which captures toxic words that contribute to misclassifications in text classification models. To assess the significance of these lexicon sets in misclassification, we compute Word-Concept Alignment (WCA) scores, which quantify the extent to which these words lead to errors due to over-attribution to toxic concepts. Finally, we introduce a lexicon-free augmentation strategy by generating toxic samples that exclude predefined toxic lexicon sets. This approach allows us to examine whether over-attribution persists when explicit lexical overlap is removed, providing insights into the model's attribution on broader toxic language patterns.
- Abstract(参考訳): ソーシャルネットワークの台頭はコミュニケーションを促進するだけでなく、有害なコンテンツの拡散も可能にしている。
テキストデータにおける有毒な言語の検出には大きな進歩があったが、有毒な検出に関する概念に基づく説明の探索は依然として限られている。
本研究では, 有害性検出データセットに含まれる様々なサブタイプ特性, 例えば, わいせつ, 脅威, 侮辱, アイデンティティアタック, 性的明示を, 言語が有害であるかどうかを識別するための強力な指標として活用する。
しかしながら、対象クラスに対する概念の不均等な帰属は、しばしば分類エラーをもたらす。
本研究では,概念の変換がモデルの出力にどのように直接影響するかを測定することによって,より因果的解釈を提供する概念グラディエント(CG)法に基づく解釈可能性手法を提案する。
これは機械学習における従来の勾配に基づく手法の拡張であり、しばしば入力機能のみに焦点を当てる。
テキスト分類モデルにおける誤分類に寄与する有害な単語をキャプチャするターゲット辞書セットのキュレーションを提案する。
誤分類におけるこれらの語彙集合の重要性を評価するために、これらの単語が有害な概念への過剰な寄与による誤りにつながる程度を定量化するワード・コンセプション・アライメント(WCA)スコアを計算した。
最後に、予め定義された有害なレキシコンセットを除外した有毒なサンプルを生成することにより、レキシコンフリー増強戦略を導入する。
このアプローチにより、明示的な語彙重なりが取り除かれたときに過剰帰属が持続するかどうかを調べることができ、より広い有害な言語パターンに対するモデルの帰属についての洞察を与えることができる。
関連論文リスト
- Rethinking Toxicity Evaluation in Large Language Models: A Multi-Label Perspective [104.09817371557476]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
有害なコンテンツを生み出す可能性には、深刻な安全上の懸念が浮かび上がっている。
毒性検出のための3つの新しいマルチラベルベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T06:50:33Z) - ToXCL: A Unified Framework for Toxic Speech Detection and Explanation [3.803993344850168]
ToXCLは暗黙の有毒音声の検出と説明のための統合されたフレームワークである。
ToXCLは、新しい最先端の有効性を実現し、ベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2024-03-25T12:21:38Z) - Language Model Classifier Aligns Better with Physician Word Sensitivity
than XGBoost on Readmission Prediction [86.15787587540132]
語彙レベルでモデルの振る舞いを精査する尺度である感度スコアを導入する。
本実験は,感度スコアのランク相関に基づいて,臨床医と分類医の意思決定論理を比較した。
論文 参考訳(メタデータ) (2022-11-13T23:59:11Z) - Toxicity Detection with Generative Prompt-based Inference [3.9741109244650823]
言語モデル(LM)は、望ましくない内容を含むコーパスで訓練され、バイアスや毒性を示す能力を持つことは、長年にわたって知られていたリスクである。
本研究では,ゼロショットプロンプトによる毒性検出の生成的変異について検討し,プロンプトエンジニアリングに関する総合的な試行を行った。
論文 参考訳(メタデータ) (2022-05-24T22:44:43Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。