論文の概要: Adversarial Concept Erasure in Kernel Space
- arxiv url: http://arxiv.org/abs/2201.12191v1
- Date: Fri, 28 Jan 2022 15:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 17:47:09.272777
- Title: Adversarial Concept Erasure in Kernel Space
- Title(参考訳): カーネル空間における逆概念消去
- Authors: Shauli Ravfogel and Francisco Vargas and Yoav Goldberg and Ryan
Cotterell
- Abstract要約: ニューラルネットワークが必ずしも線形部分空間の概念を表現するとは限らないことを示す。
本稿では,[Ravfogel et al. 2022] の線形概念除去目的のカーナライズを提案し,その概念を回復する非線形敵の能力を守るのに有効であることを示す。
- 参考スコア(独自算出の注目度): 99.4615226235752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The representation space of neural models for textual data emerges in an
unsupervised manner during training. Understanding how human-interpretable
concepts, such as gender, are encoded in these representations would improve
the ability of users to \emph{control} the content of these representations and
analyze the working of the models that rely on them. One prominent approach to
the control problem is the identification and removal of linear concept
subspaces -- subspaces in the representation space that correspond to a given
concept. While those are tractable and interpretable, neural network do not
necessarily represent concepts in linear subspaces.
We propose a kernalization of the linear concept-removal objective of
[Ravfogel et al. 2022], and show that it is effective in guarding against the
ability of certain nonlinear adversaries to recover the concept. Interestingly,
our findings suggest that the division between linear and nonlinear models is
overly simplistic: when considering the concept of binary gender and its
neutralization, we do not find a single kernel space that exclusively contains
all the concept-related information. It is therefore challenging to protect
against \emph{all} nonlinear adversaries at once.
- Abstract(参考訳): テキストデータに対するニューラルモデルの表現空間は、トレーニング中に教師なしの方法で現れる。
性別などの人間に解釈可能な概念がどのようにコード化されているかを理解することで、ユーザーはこれらの表現の内容を‘emph{control}’し、それらに依存するモデルの動作を分析する能力を向上させることができる。
制御問題に対する顕著なアプローチの1つは、与えられた概念に対応する表現空間内の線型概念部分空間の同定と除去である。
これらは扱いやすく解釈可能であるが、ニューラルネットワークは必ずしも線形部分空間の概念を表すものではない。
我々は, [ravfogel et al. 2022] の線形概念除去目的のカーナラライズを提案し, ある種の非線形敵が概念を回復する能力に対抗して有効であることを示した。
興味深いことに、線形モデルと非線形モデルの間の分割は過度に単純化され、二項性の概念と中性化を考えると、すべての概念に関連する情報を排他的に含む単一のカーネル空間は見つからない。
したがって、一度に \emph{all} 非線形敵から保護することは困難である。
関連論文リスト
- Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。
本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。
我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文 参考訳(メタデータ) (2024-07-19T17:50:11Z) - VOICE: Variance of Induced Contrastive Explanations to quantify Uncertainty in Neural Network Interpretability [15.864519662894034]
ニューラルネットワークの勾配に基づく視覚的説明の予測の不確かさを可視化し、定量化する。
視覚的なポストホック説明可能性のテクニックは、イメージ内の機能を強調して、ネットワークの予測を正当化する。
すべての画像,ネットワーク,予測,説明技術がユニークな不確実性を持っていることを示す。
論文 参考訳(メタデータ) (2024-06-01T23:32:29Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - Hierarchical Semantic Tree Concept Whitening for Interpretable Image
Classification [19.306487616731765]
ポストホック分析は、モデルに自然に存在するパターンやルールのみを発見することができる。
我々は、隠された層における人間の理解可能な概念の表現を変えるために、積極的に知識を注入する。
本手法は,モデル分類性能に悪影響を及ぼすことなく,セマンティックな概念の絡み合いを良くし,モデルの解釈可能性を向上させる。
論文 参考訳(メタデータ) (2023-07-10T04:54:05Z) - Log-linear Guardedness and its Implications [116.87322784046926]
線形性を仮定する神経表現から人間の解釈可能な概念を消去する方法は、抽出可能で有用であることが判明した。
この研究は、対数線ガードネスの概念を、敵が表現から直接その概念を予測することができないものとして正式に定義している。
バイナリの場合、ある仮定の下では、下流の対数線形モデルでは消去された概念を復元できないことを示す。
論文 参考訳(メタデータ) (2022-10-18T17:30:02Z) - Concept Gradient: Concept-based Interpretation Without Linear Assumption [77.96338722483226]
概念活性化ベクトル(Concept Activation Vector, CAV)は、与えられたモデルと概念の潜在表現の間の線形関係を学習することに依存する。
我々は、線形概念関数を超えて概念に基づく解釈を拡張する概念グラディエント(CG)を提案した。
我々は、CGがおもちゃの例と実世界のデータセットの両方でCAVより優れていることを実証した。
論文 参考訳(メタデータ) (2022-08-31T17:06:46Z) - Linear Adversarial Concept Erasure [108.37226654006153]
与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。
提案手法は, トラクタビリティと解釈性を維持しつつ, 深い非線形分類器のバイアスを効果的に軽減し, 高い表現性を有することを示す。
論文 参考訳(メタデータ) (2022-01-28T13:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。