論文の概要: The Authors Matter: Understanding and Mitigating Implicit Bias in Deep
Text Classification
- arxiv url: http://arxiv.org/abs/2105.02778v1
- Date: Thu, 6 May 2021 16:17:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:29:31.443581
- Title: The Authors Matter: Understanding and Mitigating Implicit Bias in Deep
Text Classification
- Title(参考訳): 著者たち:深層テキスト分類における暗黙のバイアスの理解と緩和
- Authors: Haochen Liu, Wei Jin, Hamid Karimi, Zitao Liu and Jiliang Tang
- Abstract要約: ディープテキスト分類モデルは、特定の人口統計グループの著者によって書かれたテキストのバイアス結果を生成することができます。
本論文では,異なる人口集団の異なるテキスト分類タスクに暗黙のバイアスが存在することを示す。
そして、暗黙のバイアスの知識を深めるために、学習に基づく解釈方法を構築します。
- 参考スコア(独自算出の注目度): 36.361778457307636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is evident that deep text classification models trained on human data
could be biased. In particular, they produce biased outcomes for texts that
explicitly include identity terms of certain demographic groups. We refer to
this type of bias as explicit bias, which has been extensively studied.
However, deep text classification models can also produce biased outcomes for
texts written by authors of certain demographic groups. We refer to such bias
as implicit bias of which we still have a rather limited understanding. In this
paper, we first demonstrate that implicit bias exists in different text
classification tasks for different demographic groups. Then, we build a
learning-based interpretation method to deepen our knowledge of implicit bias.
Specifically, we verify that classifiers learn to make predictions based on
language features that are related to the demographic attributes of the
authors. Next, we propose a framework Debiased-TC to train deep text
classifiers to make predictions on the right features and consequently mitigate
implicit bias. We conduct extensive experiments on three real-world datasets.
The results show that the text classification models trained under our proposed
framework outperform traditional models significantly in terms of fairness, and
also slightly in terms of classification performance.
- Abstract(参考訳): 人間のデータに基づいて訓練された深層テキスト分類モデルにバイアスがかかることは明らかである。
特に、特定の集団群のアイデンティティー項を明示的に含むテキストに対して偏りのある結果を生み出す。
この種のバイアスを明示的なバイアスと呼び、広く研究されている。
しかし、深層テキスト分類モデルは、特定の人口集団の著者によって書かれたテキストに対して偏りのある結果を生み出すこともある。
このようなバイアスを暗黙のバイアスと呼び、それに対する理解は限られています。
本稿では,まず,異なる分類群に対して,異なるテキスト分類タスクに暗黙的バイアスが存在することを実証する。
そして,暗黙のバイアスの知識を深めるために,学習に基づく解釈手法を構築する。
具体的には,著者の属性に関連づけられた言語特徴に基づいて,分類器が予測を行うように検証する。
次に,深層テキスト分類器を訓練し,適切な特徴量を予測するフレームワークdebiased-tcを提案する。
3つの実世界のデータセットについて広範な実験を行う。
その結果,提案手法で学習したテキスト分類モデルは,公平性の観点からも従来のモデルよりも優れており,分類性能も若干優れていた。
関連論文リスト
- Less can be more: representational vs. stereotypical gender bias in facial expression recognition [3.9698529891342207]
機械学習モデルは、トレーニングデータからバイアスを継承し、差別的または不正確な予測につながる。
本稿では、データセットから機械学習モデルへの人口統計バイアスの伝播について検討する。
ジェンダーの人口構成に焦点をあて、表現とステレオタイプという2種類の偏見を分析した。
論文 参考訳(メタデータ) (2024-06-25T09:26:49Z) - Language-guided Detection and Mitigation of Unknown Dataset Bias [23.299264313976213]
本稿では,キャプションの部分的発生に基づく事前知識のないキーワードとして潜在的なバイアスを識別する枠組みを提案する。
我々のフレームワークは、事前知識のない既存のメソッドよりも優れているだけでなく、事前知識を前提としたメソッドにさえ匹敵する。
論文 参考訳(メタデータ) (2024-06-05T03:11:33Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - COFFEE: Counterfactual Fairness for Personalized Text Generation in
Explainable Recommendation [56.520470678876656]
ユーザ記述テキストに固有のバイアスは、言語品質の異なるレベルとユーザの保護された属性を関連付けることができる。
説明生成における測度特異的な対実的公正性を実現するための一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-14T02:29:10Z) - Challenges in Measuring Bias via Open-Ended Language Generation [1.5552869983952944]
我々は、プロンプトセット、メトリクス、自動ツール、サンプリング戦略の特定の選択がバイアス結果にどのように影響するかを分析する。
オープンな言語生成におけるバイアスを報告するためのレコメンデーションを提供する。
論文 参考訳(メタデータ) (2022-05-23T19:57:15Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z) - Demographics Should Not Be the Reason of Toxicity: Mitigating
Discrimination in Text Classifications with Instance Weighting [36.87473475196733]
テキスト分類データセットにおける意図しないバイアスを,非識別分布から識別分布への選択バイアスの一種として定式化する。
本手法は, モデル一般化能力を著しく損なうことなく, 意図しないバイアスの影響を効果的に緩和することができる。
論文 参考訳(メタデータ) (2020-04-29T11:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。