論文の概要: Nonlinear Concept Erasure: a Density Matching Approach
- arxiv url: http://arxiv.org/abs/2507.12341v2
- Date: Fri, 15 Aug 2025 21:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.144965
- Title: Nonlinear Concept Erasure: a Density Matching Approach
- Title(参考訳): 非線形概念消去:密度マッチングアプローチ
- Authors: Antoine Saillenfest, Pirmin Lemberger,
- Abstract要約: 本稿では,分散表現から特定の概念に関連する情報を取り除き,残りのセマンティック情報をできるだけ多く保存するプロセスを提案する。
提案手法では, 離散概念のクラス条件特徴分布を, 射影後の識別不能な特徴分布にするために, 埋め込み空間の射影を学習する。
本手法は,従来の自然言語処理ベンチマークにおける離散属性の非線形消去における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring that neural models used in real-world applications cannot infer sensitive information, such as demographic attributes like gender or race, from text representations is a critical challenge when fairness is a concern. We address this issue through concept erasure, a process that removes information related to a specific concept from distributed representations while preserving as much of the remaining semantic information as possible. Our approach involves learning an orthogonal projection in the embedding space, designed to make the class-conditional feature distributions of the discrete concept to erase indistinguishable after projection. By adjusting the rank of the projector, we control the extent of information removal, while its orthogonality ensures strict preservation of the local structure of the embeddings. Our method, termed $\overline{\mathrm{L}}$EOPARD, achieves state-of-the-art performance in nonlinear erasure of a discrete attribute on classic natural language processing benchmarks. Furthermore, we demonstrate that $\overline{\mathrm{L}}$EOPARD effectively mitigates bias in deep nonlinear classifiers, thereby promoting fairness.
- Abstract(参考訳): 現実のアプリケーションで使用されるニューラルネットワークが、性別や人種などのセンシティブな情報をテキスト表現から推論できないことを保証することは、公正性が懸念される場合、重要な課題である。
概念消去(concept erasure)は,特定の概念に関連する情報を分散表現から取り除き,残りの意味情報をできるだけ多く保存するプロセスである。
提案手法では,分割概念のクラス条件特徴分布を,射影後の識別不能な特徴分布にすることを目的として,埋め込み空間の直交射影を学習する。
プロジェクターのランクを調整することにより、情報除去の程度を制御できる一方、その直交性は埋め込みの局所構造を厳格に保存することを保証する。
提案手法は,従来の自然言語処理ベンチマークにおける離散属性の非線形消去における最先端性能を実現する。
さらに、$\overline{\mathrm{L}}$EOPARDは、深い非線形分類器のバイアスを効果的に軽減し、公平性を促進することを実証する。
関連論文リスト
- Deep Fair Learning: A Unified Framework for Fine-tuning Representations with Sufficient Networks [8.616743904155419]
本研究では,十分な次元削減と深層学習を統合し,公正かつ情報的表現を構築するフレームワークを提案する。
微調整中に新たなペナルティ項を導入することにより、センシティブな属性と学習された表現との間の条件付き独立性を強制する。
提案手法は, 公平性と実用性とのバランスが良好であり, 最先端のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-04-08T22:24:22Z) - Studying Classifier(-Free) Guidance From a Classifier-Centric Perspective [100.54185280153753]
分類器なし誘導と分類器なし誘導の両方が,微分拡散軌道を決定境界から遠ざけることによって条件付き生成を実現することがわかった。
本研究では,フローマッチングをベースとした汎用的な後処理ステップを提案し,事前学習した復調拡散モデルに対する学習分布と実データ分布とのギャップを小さくする。
論文 参考訳(メタデータ) (2025-03-13T17:59:59Z) - Unlearning-based Neural Interpretations [51.99182464831169]
静的関数を用いて定義される現在のベースラインは、バイアスがあり、脆弱であり、操作可能であることを示す。
UNIは、学習不可能で、偏りがなく、適応的なベースラインを計算し、入力を最も急な上昇の未学習方向に向けて摂動させることを提案する。
論文 参考訳(メタデータ) (2024-10-10T16:02:39Z) - TaCo: Targeted Concept Erasure Prevents Non-Linear Classifiers From Detecting Protected Attributes [4.2560452339165895]
Targeted Concept Erasure (TaCo)は、最後の潜伏表現から機密情報を除去する新しいアプローチである。
実験の結果,TaCoは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-11T16:22:37Z) - Shielded Representations: Protecting Sensitive Attributes Through
Iterative Gradient-Based Projection [39.16319169760823]
イテレーティブ・グラディエント・ベース・プロジェクション(Iterative Gradient-Based Projection)は、非線形符号化された概念をニューラル表現から除去する新しい方法である。
以上の結果より, IGBPは内因性および外因性評価によるバイアス軽減に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-05-17T13:26:57Z) - Linear Adversarial Concept Erasure [108.37226654006153]
与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。
提案手法は, トラクタビリティと解釈性を維持しつつ, 深い非線形分類器のバイアスを効果的に軽減し, 高い表現性を有することを示す。
論文 参考訳(メタデータ) (2022-01-28T13:00:17Z) - A Curriculum-style Self-training Approach for Source-Free Semantic Segmentation [91.13472029666312]
ソースフリーなドメイン適応型セマンティックセマンティックセグメンテーションのためのカリキュラムスタイルの自己学習手法を提案する。
提案手法は, ソースフリーなセマンティックセグメンテーションタスクにおいて, 合成-実-実-実-実-実-実-非実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実
論文 参考訳(メタデータ) (2021-06-22T10:21:39Z) - Deep Clustering by Semantic Contrastive Learning [67.28140787010447]
Semantic Contrastive Learning (SCL) と呼ばれる新しい変種を紹介します。
従来のコントラスト学習とディープクラスタリングの両方の特徴を探求する。
コントラスト学習と深層クラスタリングの強みを統一的なアプローチで増幅することができる。
論文 参考訳(メタデータ) (2021-03-03T20:20:48Z) - Null It Out: Guarding Protected Attributes by Iterative Nullspace
Projection [51.041763676948705]
Iterative Null-space Projection (INLP) は神経表現から情報を取り除く新しい方法である。
提案手法は,単語埋め込みにおけるバイアスを軽減するとともに,複数クラス分類の設定において公平性を高めることができることを示す。
論文 参考訳(メタデータ) (2020-04-16T14:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。