論文の概要: Kernelized Concept Erasure
- arxiv url: http://arxiv.org/abs/2201.12191v6
- Date: Sun, 15 Sep 2024 21:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 06:00:45.246728
- Title: Kernelized Concept Erasure
- Title(参考訳): カーネル化概念消去
- Authors: Shauli Ravfogel, Francisco Vargas, Yoav Goldberg, Ryan Cotterell,
- Abstract要約: 概念消去のための線形ミニマックスゲームのカーネル化を提案する。
特定の非線形敵が概念を予測するのを防ぐことができる。
しかし、保護は異なる非線形敵に移動しない。
- 参考スコア(独自算出の注目度): 108.65038124096907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The representation space of neural models for textual data emerges in an unsupervised manner during training. Understanding how those representations encode human-interpretable concepts is a fundamental problem. One prominent approach for the identification of concepts in neural representations is searching for a linear subspace whose erasure prevents the prediction of the concept from the representations. However, while many linear erasure algorithms are tractable and interpretable, neural networks do not necessarily represent concepts in a linear manner. To identify non-linearly encoded concepts, we propose a kernelization of a linear minimax game for concept erasure. We demonstrate that it is possible to prevent specific non-linear adversaries from predicting the concept. However, the protection does not transfer to different nonlinear adversaries. Therefore, exhaustively erasing a non-linearly encoded concept remains an open problem.
- Abstract(参考訳): テキストデータに対するニューラルモデルの表現空間は、トレーニング中に教師なしの方法で現れる。
これらの表現がどのように人間の解釈可能な概念を符号化するかを理解することは、根本的な問題である。
神経表現における概念の同定のための顕著なアプローチの1つは、消去によって概念の予測が表現から妨げられる線形部分空間を探すことである。
しかしながら、多くの線形消去アルゴリズムはトラクタブルで解釈可能であるが、ニューラルネットワークは必ずしも線形な方法で概念を表現するとは限らない。
非線形符号化された概念を識別するために,概念消去のための線形ミニマックスゲームのカーネル化を提案する。
我々は、特定の非線形敵が概念を予測するのを防ぐことが可能であることを実証した。
しかし、保護は異なる非線形敵に移動しない。
したがって、非線型符号化の概念を徹底的に消去することは、未解決の問題である。
関連論文リスト
- Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。
本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。
我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文 参考訳(メタデータ) (2024-07-19T17:50:11Z) - VOICE: Variance of Induced Contrastive Explanations to quantify Uncertainty in Neural Network Interpretability [15.864519662894034]
ニューラルネットワークの勾配に基づく視覚的説明の予測の不確かさを可視化し、定量化する。
視覚的なポストホック説明可能性のテクニックは、イメージ内の機能を強調して、ネットワークの予測を正当化する。
すべての画像,ネットワーク,予測,説明技術がユニークな不確実性を持っていることを示す。
論文 参考訳(メタデータ) (2024-06-01T23:32:29Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - Hierarchical Semantic Tree Concept Whitening for Interpretable Image
Classification [19.306487616731765]
ポストホック分析は、モデルに自然に存在するパターンやルールのみを発見することができる。
我々は、隠された層における人間の理解可能な概念の表現を変えるために、積極的に知識を注入する。
本手法は,モデル分類性能に悪影響を及ぼすことなく,セマンティックな概念の絡み合いを良くし,モデルの解釈可能性を向上させる。
論文 参考訳(メタデータ) (2023-07-10T04:54:05Z) - Log-linear Guardedness and its Implications [116.87322784046926]
線形性を仮定する神経表現から人間の解釈可能な概念を消去する方法は、抽出可能で有用であることが判明した。
この研究は、対数線ガードネスの概念を、敵が表現から直接その概念を予測することができないものとして正式に定義している。
バイナリの場合、ある仮定の下では、下流の対数線形モデルでは消去された概念を復元できないことを示す。
論文 参考訳(メタデータ) (2022-10-18T17:30:02Z) - Concept Gradient: Concept-based Interpretation Without Linear Assumption [77.96338722483226]
概念活性化ベクトル(Concept Activation Vector, CAV)は、与えられたモデルと概念の潜在表現の間の線形関係を学習することに依存する。
我々は、線形概念関数を超えて概念に基づく解釈を拡張する概念グラディエント(CG)を提案した。
我々は、CGがおもちゃの例と実世界のデータセットの両方でCAVより優れていることを実証した。
論文 参考訳(メタデータ) (2022-08-31T17:06:46Z) - Linear Adversarial Concept Erasure [108.37226654006153]
与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。
提案手法は, トラクタビリティと解釈性を維持しつつ, 深い非線形分類器のバイアスを効果的に軽減し, 高い表現性を有することを示す。
論文 参考訳(メタデータ) (2022-01-28T13:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。