論文の概要: Linear Adversarial Concept Erasure
- arxiv url: http://arxiv.org/abs/2201.12091v1
- Date: Fri, 28 Jan 2022 13:00:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 20:23:13.193305
- Title: Linear Adversarial Concept Erasure
- Title(参考訳): 線形反転概念消去
- Authors: Shauli Ravfogel, Michael Twiton, Yoav Goldberg and Ryan Cotterell
- Abstract要約: 与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。
我々は、この問題を制約付き線形ミニマックスゲームとしてモデル化し、既存のソリューションが一般にこのタスクに最適でないことを示す。
線形であるにもかかわらず、この手法は、トラクタビリティと解釈可能性を維持しつつ、深い非線形分類器のバイアスを効果的に軽減することを示す。
- 参考スコア(独自算出の注目度): 98.14246446690282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern neural models trained on textual data rely on pre-trained
representations that emerge without direct supervision. As these
representations are increasingly being used in real-world applications, the
inability to \emph{control} their content becomes an increasingly important
problem.
We formulate the problem of identifying and erasing a linear subspace that
corresponds to a given concept, in order to prevent linear predictors from
recovering the concept. We model this problem as a constrained, linear minimax
game, and show that existing solutions are generally not optimal for this task.
We derive a closed-form solution for certain objectives, and propose a convex
relaxation, R-LACE, that works well for others. When evaluated in the context
of binary gender removal, the method recovers a low-dimensional subspace whose
removal mitigates bias by intrinsic and extrinsic evaluation. We show that the
method -- despite being linear -- is highly expressive, effectively mitigating
bias in deep nonlinear classifiers while maintaining tractability and
interpretability.
- Abstract(参考訳): テキストデータに基づいてトレーニングされた現代のニューラルモデルは、直接の監督なしに現れる事前訓練された表現に依存している。
これらの表現が現実のアプリケーションで使われるようになるにつれて、それらのコンテンツが \emph{control} できないことがますます重要な問題になっている。
線形予測器が概念を回復するのを防ぐために、与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。
我々は、この問題を制約付き線形ミニマックスゲームとしてモデル化し、既存のソリューションが一般にこのタスクに最適でないことを示す。
我々は,ある目的に対する閉形式解を導出し,他の目的にうまく機能する凸緩和 r-レースを提案する。
二元性除去の文脈で評価すると、本手法は、内在的および外在的評価によりバイアスを緩和する低次元部分空間を回復する。
線形であるにもかかわらず、この手法は、トラクタビリティと解釈可能性を維持しつつ、深い非線形分類器のバイアスを効果的に軽減する。
関連論文リスト
- Unlearning-based Neural Interpretations [51.99182464831169]
静的関数を用いて定義される現在のベースラインは、バイアスがあり、脆弱であり、操作可能であることを示す。
UNIは、学習不可能で、偏りがなく、適応的なベースラインを計算し、入力を最も急な上昇の未学習方向に向けて摂動させることを提案する。
論文 参考訳(メタデータ) (2024-10-10T16:02:39Z) - Shielded Representations: Protecting Sensitive Attributes Through
Iterative Gradient-Based Projection [39.16319169760823]
イテレーティブ・グラディエント・ベース・プロジェクション(Iterative Gradient-Based Projection)は、非線形符号化された概念をニューラル表現から除去する新しい方法である。
以上の結果より, IGBPは内因性および外因性評価によるバイアス軽減に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-05-17T13:26:57Z) - Log-linear Guardedness and its Implications [116.87322784046926]
線形性を仮定する神経表現から人間の解釈可能な概念を消去する方法は、抽出可能で有用であることが判明した。
この研究は、対数線ガードネスの概念を、敵が表現から直接その概念を予測することができないものとして正式に定義している。
バイナリの場合、ある仮定の下では、下流の対数線形モデルでは消去された概念を復元できないことを示す。
論文 参考訳(メタデータ) (2022-10-18T17:30:02Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Kernelized Concept Erasure [108.65038124096907]
概念消去のための線形ミニマックスゲームのカーネル化を提案する。
特定の非線形敵が概念を予測するのを防ぐことができる。
しかし、保護は異なる非線形敵に移動しない。
論文 参考訳(メタデータ) (2022-01-28T15:45:13Z) - Online and Distribution-Free Robustness: Regression and Contextual
Bandits with Huber Contamination [29.85468294601847]
線形回帰と文脈的帯域幅という2つの古典的高次元オンライン学習問題を再考する。
従来の手法が失敗した場合にアルゴリズムが成功することを示す。
論文 参考訳(メタデータ) (2020-10-08T17:59:05Z) - Deep Dimension Reduction for Supervised Representation Learning [51.10448064423656]
本研究は,本質的な特徴を持つ学習表現の次元削減手法を提案する。
提案手法は, 十分次元還元法の非パラメトリック一般化である。
推定された深度非パラメトリック表現は、その余剰リスクが0に収束するという意味で一貫したものであることを示す。
論文 参考訳(メタデータ) (2020-06-10T14:47:43Z) - Implicit Geometric Regularization for Learning Shapes [34.052738965233445]
生データから直接高忠実度暗黙的ニューラル表現を計算するための新しいパラダイムを提供する。
提案手法は,従来の手法と比較して,高い精度と忠実度を有する暗黙的ニューラル表現の状態を導出することを示す。
論文 参考訳(メタデータ) (2020-02-24T07:36:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。