論文の概要: Concept-Based Explanations to Test for False Causal Relationships
Learned by Abusive Language Classifiers
- arxiv url: http://arxiv.org/abs/2307.01900v1
- Date: Tue, 4 Jul 2023 19:57:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 15:51:02.377869
- Title: Concept-Based Explanations to Test for False Causal Relationships
Learned by Abusive Language Classifiers
- Title(参考訳): 乱用言語分類器による偽因果関係の検証のための概念に基づく説明
- Authors: Isar Nejadgholi, Svetlana Kiritchenko, Kathleen C. Fraser, and Esma
Balk{\i}r
- Abstract要約: 大規模な英語データセットで訓練された3つのよく知られた乱用言語分類器について考察する。
まず,すべての決定しきい値にまたがる課題に対して,その正確さを評価することによって,分類器が学習した不要な依存関係について検討する。
次に、概念に基づく説明指標を導入し、概念がラベルに与える影響を評価する。
- 参考スコア(独自算出の注目度): 7.022948483613113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classifiers tend to learn a false causal relationship between an
over-represented concept and a label, which can result in over-reliance on the
concept and compromised classification accuracy. It is imperative to have
methods in place that can compare different models and identify over-reliances
on specific concepts. We consider three well-known abusive language classifiers
trained on large English datasets and focus on the concept of negative
emotions, which is an important signal but should not be learned as a
sufficient feature for the label of abuse. Motivated by the definition of
global sufficiency, we first examine the unwanted dependencies learned by the
classifiers by assessing their accuracy on a challenge set across all decision
thresholds. Further, recognizing that a challenge set might not always be
available, we introduce concept-based explanation metrics to assess the
influence of the concept on the labels. These explanations allow us to compare
classifiers regarding the degree of false global sufficiency they have learned
between a concept and a label.
- Abstract(参考訳): 分類器は、過剰表現された概念とラベルの間の誤った因果関係を学習する傾向があり、その結果、概念の過度な信頼と分類精度の妥協につながる。
異なるモデルを比較し、特定の概念に過剰依存を識別できるメソッドを配置しておくことが不可欠である。
大規模な英語データセットで訓練された3つのよく知られた乱用言語分類器について検討し,悪用ラベルの十分な特徴として学習すべきでない重要なシグナルである否定感情の概念に注目した。
グローバル十分性の定義に動機づけられ、まず、すべての決定しきい値にまたがって設定された課題において、その正確性を評価することによって、分類器が学習した望ましくない依存関係を調べる。
さらに,課題セットが必ずしも利用可能ではないことを認識し,概念がラベルに与える影響を評価するための概念ベースの説明指標を導入する。
これらの説明により、概念とラベルの間で学んだ偽の大域的充足度について分類器を比較することができる。
関連論文リスト
- Robust Representation Learning for Unreliable Partial Label Learning [86.909511808373]
部分ラベル学習(Partial Label Learning, PLL)は、弱い教師付き学習の一種で、各トレーニングインスタンスに候補ラベルのセットが割り当てられる。
これはUn Reliable partial Label Learning (UPLL) と呼ばれ、部分ラベルの本質的な信頼性の欠如とあいまいさにより、さらなる複雑さをもたらす。
本研究では,信頼できない部分ラベルに対するモデル強化を支援するために,信頼性に欠けるコントラスト学習を活用するUnreliability-Robust Representation Learning framework(URRL)を提案する。
論文 参考訳(メタデータ) (2023-08-31T13:37:28Z) - LEACE: Perfect linear concept erasure in closed form [103.61624393221447]
概念消去は、特定の特徴を表現から削除することを目的としている。
LEAst-squares Concept Erasure (LEACE) は、線形分類器が可能な限り少ない表現で概念を検出することを確実に防止する閉形式手法である。
LEACEを"concept scrubbing"と呼ばれる新しい手法で大規模言語モデルに適用し、ネットワーク内の各層からターゲット概念情報を消去する。
論文 参考訳(メタデータ) (2023-06-06T16:07:24Z) - Towards Procedural Fairness: Uncovering Biases in How a Toxic Language
Classifier Uses Sentiment Information [7.022948483613112]
この研究は、不公平なプロセスが不公平な結果をもたらす手続き的公正性を評価するための一歩である。
生成された知識は、トレーニングデータセットにおいてアイデンティティ用語以外の重要な概念が適切に表現されていることを保証するために、デバイアス技術(debiasing techniques)をガイドすることができる。
論文 参考訳(メタデータ) (2022-10-19T16:03:25Z) - Noise Audits Improve Moral Foundation Classification [5.7685650619372595]
道徳は文化、アイデンティティ、感情において重要な役割を果たす。
近年の自然言語処理の進歩により、テキストで表される道徳的価値を大規模に分類することが可能であることが示されている。
モラル分類は、テキストのモラル表現をラベル付けするために人間のアノテータに依存している。
論文 参考訳(メタデータ) (2022-10-13T23:37:47Z) - Probing Classifiers are Unreliable for Concept Removal and Detection [18.25734277357466]
テキストデータに基づいてトレーニングされたニューラルネットワークモデルは、その表現において望ましくない言語的あるいはセンシティブな概念を符号化する。
近年の研究では、そのような不要な概念をモデル表現から除去するためのポストホックおよび逆法が提案されている。
これらの手法は非生産的であり、最悪の場合、すべてのタスク関連機能を破壊する可能性がある。
論文 参考訳(メタデータ) (2022-07-08T23:15:26Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - Translational Concept Embedding for Generalized Compositional Zero-shot
Learning [73.60639796305415]
一般合成ゼロショット学習は、ゼロショット方式で属性オブジェクト対の合成概念を学習する手段である。
本稿では,これら2つの課題を統一的なフレームワークで解決するために,翻訳概念の埋め込み(translational concept embedded)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-12-20T21:27:51Z) - Active Refinement for Multi-Label Learning: A Pseudo-Label Approach [84.52793080276048]
MLL(Multi-label Learning)は、あるインスタンスと関連するラベルを一連の概念から関連付けることを目的としている。
MLLの以前の研究は、主に概念セットが修正されると思われる設定に焦点を当てていた。
多くの現実世界のアプリケーションは、新しい要求を満たすために新しい概念をセットに導入する必要がある。
論文 参考訳(メタデータ) (2021-09-29T19:17:05Z) - DISSECT: Disentangled Simultaneous Explanations via Concept Traversals [33.65478845353047]
DISSECTは、ディープラーニングモデル推論を説明するための新しいアプローチである。
DISSECTは、分類器の信号から生成モデルを訓練することにより、異なる概念の分類器固有の「名詞」を発見する方法を提供する。
DISSECTは,複数の概念を分離し,共同訓練による推論と結合したCTを生成する。
論文 参考訳(メタデータ) (2021-05-31T17:11:56Z) - CURI: A Benchmark for Productive Concept Learning Under Uncertainty [33.83721664338612]
我々は、新しい数ショットメタラーニングベンチマーク、コンポジション推論を不確実性の下で導入する(CURI)。
CURIは、疎結合、生産的一般化、学習操作、変数バインディングなどの抽象的な理解を含む、生産的および体系的な一般化の異なる側面を評価します。
また、モデルに依存しない「構成性ギャップ」を定義し、それぞれの軸に沿って分布外分布を一般化することの難しさを評価する。
論文 参考訳(メタデータ) (2020-10-06T16:23:17Z) - Debiased Contrastive Learning [64.98602526764599]
我々は,同ラベルデータポイントのサンプリングを補正する,偏りのあるコントラスト目的の開発を行う。
実証的に、提案する目的は、視覚、言語、強化学習ベンチマークにおける表現学習の最先端を一貫して上回る。
論文 参考訳(メタデータ) (2020-07-01T04:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。