論文の概要: TaCo: Targeted Concept Removal in Output Embeddings for NLP via
Information Theory and Explainability
- arxiv url: http://arxiv.org/abs/2312.06499v2
- Date: Thu, 11 Jan 2024 09:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 02:53:35.842772
- Title: TaCo: Targeted Concept Removal in Output Embeddings for NLP via
Information Theory and Explainability
- Title(参考訳): TaCo:情報理論と説明可能性によるNLP用出力埋め込みの概念除去
- Authors: Fanny Jourdan, Louis B\'ethune, Agustin Picard, Laurent Risser,
Nicholas Asher
- Abstract要約: 情報理論は、モデルが性別、民族、年齢などの敏感な変数を予測できないことを示唆している。
NLPモデルの埋め込みレベルで機能する新しい手法を提案する。
提案手法は,NLPモデルにおける性別関連関連性を著しく低減することを示す。
- 参考スコア(独自算出の注目度): 3.6598644685721036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The fairness of Natural Language Processing (NLP) models has emerged as a
crucial concern. Information theory indicates that to achieve fairness, a model
should not be able to predict sensitive variables, such as gender, ethnicity,
and age. However, information related to these variables often appears
implicitly in language, posing a challenge in identifying and mitigating biases
effectively. To tackle this issue, we present a novel approach that operates at
the embedding level of an NLP model, independent of the specific architecture.
Our method leverages insights from recent advances in XAI techniques and
employs an embedding transformation to eliminate implicit information from a
selected variable. By directly manipulating the embeddings in the final layer,
our approach enables a seamless integration into existing models without
requiring significant modifications or retraining. In evaluation, we show that
the proposed post-hoc approach significantly reduces gender-related
associations in NLP models while preserving the overall performance and
functionality of the models. An implementation of our method is available:
https://github.com/fanny-jourdan/TaCo
- Abstract(参考訳): 自然言語処理(NLP)モデルの公平性は重要な懸念事項となっている。
情報理論は、公正性を達成するためには、モデルが性別、民族、年齢などの敏感な変数を予測できないことを示唆している。
しかし、これらの変数に関連する情報は、しばしば言語に暗黙的に現れ、バイアスを効果的に識別し緩和する上での課題となっている。
この問題に対処するため,NLPモデルの埋め込みレベルにおいて,特定のアーキテクチャに依存しない新たなアプローチを提案する。
提案手法は,XAI手法の最近の進歩から得られた知見を活用し,組込み変換を用いて,選択した変数から暗黙の情報を排除する。
最終レイヤへの埋め込みを直接操作することで、当社のアプローチは、大幅な修正や再トレーニングを必要とせずに、既存のモデルへのシームレスな統合を可能にします。
評価において,提案手法は,NLPモデルにおける性別関係の関連性を大幅に低減し,モデル全体の性能と機能を維持する。
このメソッドの実装は、https://github.com/fanny-jourdan/tacoです。
関連論文リスト
- Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Nonlinear Transformations Against Unlearnable Datasets [4.876873339297269]
自動スクラップは、データ所有者の許可なしにディープラーニングモデルのデータを収集する一般的な方法として際立っている。
近年,このデータ収集手法に関するプライバシー問題に取り組み始めている。
学習不可能(unlearnable)な例と呼ばれるこれらのアプローチによって生成されたデータは、ディープラーニングモデルによって"学習"される。
論文 参考訳(メタデータ) (2024-06-05T03:00:47Z) - Latent Enhancing AutoEncoder for Occluded Image Classification [2.6217304977339473]
LEARN: Latent Enhancing feature Reconstruction Networkを紹介する。
オートエンコーダベースのネットワークで、頭の前に分類モデルに組み込むことができる。
OccludedPASCAL3D+データセットでは、提案されたLEARNが標準分類モデルより優れている。
論文 参考訳(メタデータ) (2024-02-10T12:22:31Z) - Credible Teacher for Semi-Supervised Object Detection in Open Scene [106.25850299007674]
Open Scene Semi-Supervised Object Detection (O-SSOD)では、ラベル付きデータはラベル付きデータで観測されていない未知のオブジェクトを含む可能性がある。
より不確実性が、偽ラベルのローカライズと分類精度の低下につながるため、主に自己学習に依存する現在の手法には有害である。
我々は,不確実な擬似ラベルがモデルに誤解をもたらすのを防ぐための,エンドツーエンドのフレームワークであるCredible Teacherを提案する。
論文 参考訳(メタデータ) (2024-01-01T08:19:21Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Model Debiasing via Gradient-based Explanation on Representation [14.673988027271388]
本稿では,デリケートな属性やプロキシな属性に関して,デバイアスを行う新しいフェアネスフレームワークを提案する。
我々のフレームワークは、過去の最先端のアプローチよりも、構造化されていないデータセットと構造化されたデータセットの公平性と正確なトレードオフを達成しています。
論文 参考訳(メタデータ) (2023-05-20T11:57:57Z) - Shielded Representations: Protecting Sensitive Attributes Through
Iterative Gradient-Based Projection [39.16319169760823]
イテレーティブ・グラディエント・ベース・プロジェクション(Iterative Gradient-Based Projection)は、非線形符号化された概念をニューラル表現から除去する新しい方法である。
以上の結果より, IGBPは内因性および外因性評価によるバイアス軽減に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-05-17T13:26:57Z) - Linear Adversarial Concept Erasure [108.37226654006153]
与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。
提案手法は, トラクタビリティと解釈性を維持しつつ, 深い非線形分類器のバイアスを効果的に軽減し, 高い表現性を有することを示す。
論文 参考訳(メタデータ) (2022-01-28T13:00:17Z) - Fairness via Representation Neutralization [60.90373932844308]
フェアネスのための表現中立化(Representation Neutralization for Fairness, RNF)という新たな緩和手法を提案する。
RNFは、DNNモデルのタスク固有の分類ヘッダのみをデバイアスすることで、その公平性を達成する。
複数のベンチマークデータセットに対する実験結果は、DNNモデルの識別を効果的に削減するRNFフレームワークを実証している。
論文 参考訳(メタデータ) (2021-06-23T22:26:29Z) - Null It Out: Guarding Protected Attributes by Iterative Nullspace
Projection [51.041763676948705]
Iterative Null-space Projection (INLP) は神経表現から情報を取り除く新しい方法である。
提案手法は,単語埋め込みにおけるバイアスを軽減するとともに,複数クラス分類の設定において公平性を高めることができることを示す。
論文 参考訳(メタデータ) (2020-04-16T14:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。