Fugu-MT 論文翻訳(概要): TaCo: Targeted Concept Erasure Prevents Non-Linear Classifiers From Detecting Protected Attributes

論文の概要: TaCo: Targeted Concept Erasure Prevents Non-Linear Classifiers From Detecting Protected Attributes

arxiv url: http://arxiv.org/abs/2312.06499v4
Date: Wed, 16 Oct 2024 08:53:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.046056
Title: TaCo: Targeted Concept Erasure Prevents Non-Linear Classifiers From Detecting Protected Attributes
Title（参考訳）: TaCo: ターゲットのコンセプト消去は、保護属性の検出から非Linear分類を予防する
Authors: Fanny Jourdan, Louis Béthune, Agustin Picard, Laurent Risser, Nicholas Asher,
Abstract要約: Targeted Concept Erasure (TaCo)は、最後の潜伏表現から機密情報を除去する新しいアプローチである。実験の結果,TaCoは最先端の手法よりも優れていた。
参考スコア（独自算出の注目度）: 4.2560452339165895
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ensuring fairness in NLP models is crucial, as they often encode sensitive attributes like gender and ethnicity, leading to biased outcomes. Current concept erasure methods attempt to mitigate this by modifying final latent representations to remove sensitive information without retraining the entire model. However, these methods typically rely on linear classifiers, which leave models vulnerable to non-linear adversaries capable of recovering sensitive information. We introduce Targeted Concept Erasure (TaCo), a novel approach that removes sensitive information from final latent representations, ensuring fairness even against non-linear classifiers. Our experiments show that TaCo outperforms state-of-the-art methods, achieving greater reductions in the prediction accuracy of sensitive attributes by non-linear classifier while preserving overall task performance. Code is available on https://github.com/fanny-jourdan/TaCo.
Abstract（参考訳）: NLPモデルにおける公平性の確保は、しばしば性別や民族などのセンシティブな属性を符号化し、バイアスのある結果をもたらすため、非常に重要である。現在の概念消去法は、モデル全体をトレーニングすることなく、機密情報を除去するために最後の潜伏表現を変更することで、これを緩和しようとする。しかし、これらの手法は一般に線形分類器に依存しており、機密情報を回復できる非線形の敵に弱いモデルを残している。最終潜在表現からセンシティブな情報を取り除き、非線形分類器に対しても公平性を確保する新しい手法であるTargeted Concept Erasure(TaCo)を導入する。実験の結果,TaCoはタスク全体の性能を保ちながら,非線形分類器による感度特性の予測精度を向上し,最先端の手法よりも優れていた。コードはhttps://github.com/fanny-jourdan/TaCo.comで入手できる。

関連論文リスト

Desensitizing for Improving Corruption Robustness in Point Cloud Classification through Adversarial Training [10.758400116136523]
入力機能の過度な信頼性は、DNN脆弱性の根本原因である。本稿では,デセンシタイズ・アドセンシタイズ・トレーニング(Desensitized Adsensitized Training, DesenAT)を提案する。 ModelNet-C と PointCloud-C の大規模な実験により,提案手法はクリーンデータセットの性能を低下させることなく,モデルの堅牢性を効果的に向上できることを示した。
論文参考訳（メタデータ） (2025-09-27T00:04:00Z)
Nonlinear Concept Erasure: a Density Matching Approach [0.0]
本稿では,分散表現から特定の概念に関連する情報を取り除き,残りのセマンティック情報をできるだけ多く保存するプロセスを提案する。提案手法では, 離散概念のクラス条件特徴分布を, 射影後の識別不能な特徴分布にするために, 埋め込み空間の射影を学習する。本手法は,従来の自然言語処理ベンチマークにおける離散属性の非線形消去における最先端性能を実現する。
論文参考訳（メタデータ） (2025-07-16T15:36:15Z)
Fairness-Aware Low-Rank Adaptation Under Demographic Privacy Constraints [4.647881572951815]
事前訓練された基礎モデルはローランド適応(LoRA)を用いて特定のタスクに適応することができる既存のフェアネスを意識した微調整手法は、機密属性や予測器への直接アクセスに依存している。分散方式でトレーニング可能なLoRAベースの微調整手法のセットを紹介する。
論文参考訳（メタデータ） (2025-03-07T18:49:57Z)
Adversarial Purification by Consistency-aware Latent Space Optimization on Data Manifolds [48.37843602248313]
ディープニューラルネットワーク(DNN)は、クリーンデータに知覚不能な摂動を加えることで作られた敵のサンプルに対して脆弱であり、誤った危険な予測につながる可能性がある。本稿では、事前学習された一貫性モデルの潜在空間内のベクトルを最適化し、クリーンなデータを復元するためのサンプルを生成する、一貫性モデルに基づく適応的パーフィケーション(CMAP)を提案する。 CMAPは、高い自然な精度を維持しながら、強力な敵攻撃に対する堅牢性を著しく向上させる。
論文参考訳（メタデータ） (2024-12-11T14:14:02Z)
Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文参考訳（メタデータ） (2024-07-17T08:04:28Z)
Nonlinear Transformations Against Unlearnable Datasets [4.876873339297269]
自動スクラップは、データ所有者の許可なしにディープラーニングモデルのデータを収集する一般的な方法として際立っている。近年,このデータ収集手法に関するプライバシー問題に取り組み始めている。学習不可能(unlearnable)な例と呼ばれるこれらのアプローチによって生成されたデータは、ディープラーニングモデルによって"学習"される。
論文参考訳（メタデータ） (2024-06-05T03:00:47Z)
Latent Enhancing AutoEncoder for Occluded Image Classification [2.6217304977339473]
LEARN: Latent Enhancing feature Reconstruction Networkを紹介する。オートエンコーダベースのネットワークで、頭の前に分類モデルに組み込むことができる。 OccludedPASCAL3D+データセットでは、提案されたLEARNが標準分類モデルより優れている。
論文参考訳（メタデータ） (2024-02-10T12:22:31Z)
Credible Teacher for Semi-Supervised Object Detection in Open Scene [106.25850299007674]
Open Scene Semi-Supervised Object Detection (O-SSOD)では、ラベル付きデータはラベル付きデータで観測されていない未知のオブジェクトを含む可能性がある。より不確実性が、偽ラベルのローカライズと分類精度の低下につながるため、主に自己学習に依存する現在の手法には有害である。我々は,不確実な擬似ラベルがモデルに誤解をもたらすのを防ぐための,エンドツーエンドのフレームワークであるCredible Teacherを提案する。
論文参考訳（メタデータ） (2024-01-01T08:19:21Z)
XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。 XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。 6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文参考訳（メタデータ） (2023-10-09T08:07:04Z)
Model Debiasing via Gradient-based Explanation on Representation [14.673988027271388]
本稿では,デリケートな属性やプロキシな属性に関して,デバイアスを行う新しいフェアネスフレームワークを提案する。我々のフレームワークは、過去の最先端のアプローチよりも、構造化されていないデータセットと構造化されたデータセットの公平性と正確なトレードオフを達成しています。
論文参考訳（メタデータ） (2023-05-20T11:57:57Z)
Shielded Representations: Protecting Sensitive Attributes Through Iterative Gradient-Based Projection [39.16319169760823]
イテレーティブ・グラディエント・ベース・プロジェクション(Iterative Gradient-Based Projection)は、非線形符号化された概念をニューラル表現から除去する新しい方法である。以上の結果より, IGBPは内因性および外因性評価によるバイアス軽減に有効であることが示唆された。
論文参考訳（メタデータ） (2023-05-17T13:26:57Z)
Linear Adversarial Concept Erasure [108.37226654006153]
与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。提案手法は, トラクタビリティと解釈性を維持しつつ, 深い非線形分類器のバイアスを効果的に軽減し, 高い表現性を有することを示す。
論文参考訳（メタデータ） (2022-01-28T13:00:17Z)
Fairness via Representation Neutralization [60.90373932844308]
フェアネスのための表現中立化(Representation Neutralization for Fairness, RNF)という新たな緩和手法を提案する。 RNFは、DNNモデルのタスク固有の分類ヘッダのみをデバイアスすることで、その公平性を達成する。複数のベンチマークデータセットに対する実験結果は、DNNモデルの識別を効果的に削減するRNFフレームワークを実証している。
論文参考訳（メタデータ） (2021-06-23T22:26:29Z)
Null It Out: Guarding Protected Attributes by Iterative Nullspace Projection [51.041763676948705]
Iterative Null-space Projection (INLP) は神経表現から情報を取り除く新しい方法である。提案手法は,単語埋め込みにおけるバイアスを軽減するとともに,複数クラス分類の設定において公平性を高めることができることを示す。
論文参考訳（メタデータ） (2020-04-16T14:02:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。