論文の概要: Probing Classifiers are Unreliable for Concept Removal and Detection
- arxiv url: http://arxiv.org/abs/2207.04153v3
- Date: Mon, 19 Jun 2023 17:37:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 05:56:48.922184
- Title: Probing Classifiers are Unreliable for Concept Removal and Detection
- Title(参考訳): 探索型分類器は概念除去と検出には信頼性がない
- Authors: Abhinav Kumar, Chenhao Tan, Amit Sharma
- Abstract要約: テキストデータに基づいてトレーニングされたニューラルネットワークモデルは、その表現において望ましくない言語的あるいはセンシティブな概念を符号化する。
近年の研究では、そのような不要な概念をモデル表現から除去するためのポストホックおよび逆法が提案されている。
これらの手法は非生産的であり、最悪の場合、すべてのタスク関連機能を破壊する可能性がある。
- 参考スコア(独自算出の注目度): 18.25734277357466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural network models trained on text data have been found to encode
undesirable linguistic or sensitive concepts in their representation. Removing
such concepts is non-trivial because of a complex relationship between the
concept, text input, and the learnt representation. Recent work has proposed
post-hoc and adversarial methods to remove such unwanted concepts from a
model's representation. Through an extensive theoretical and empirical
analysis, we show that these methods can be counter-productive: they are unable
to remove the concepts entirely, and in the worst case may end up destroying
all task-relevant features. The reason is the methods' reliance on a probing
classifier as a proxy for the concept. Even under the most favorable conditions
for learning a probing classifier when a concept's relevant features in
representation space alone can provide 100% accuracy, we prove that a probing
classifier is likely to use non-concept features and thus post-hoc or
adversarial methods will fail to remove the concept correctly. These
theoretical implications are confirmed by experiments on models trained on
synthetic, Multi-NLI, and Twitter datasets. For sensitive applications of
concept removal such as fairness, we recommend caution against using these
methods and propose a spuriousness metric to gauge the quality of the final
classifier.
- Abstract(参考訳): テキストデータに基づいてトレーニングされたニューラルネットワークモデルは、その表現において望ましくない言語的あるいは敏感な概念を符号化する。
このような概念の除去は、概念、テキスト入力、学習表現の間の複雑な関係のため、非自明である。
最近の研究は、モデル表現からそのような望ましくない概念を取り除くためのポストホックおよび逆法を提案している。
理論的および経験的分析を通じて、これらの手法は非生産的であり、概念を完全に取り除くことができず、最悪の場合、すべてのタスク関連特徴を破壊することになる。
その理由は、メソッドが概念のプロキシとして探索分類子に依存するためである。
表現空間における概念の関連する特徴が100%の精度で得られる場合に、探索分類器を学習するのに最も有利な条件の下でも、探索分類器が非概念的特徴を用いることがあり、したがってポストホック法や逆法が正しく概念を除去できないことが証明される。
これらの理論的含意は、合成、マルチNLI、Twitterデータセットでトレーニングされたモデルの実験によって確認される。
フェアネスのような概念除去のセンシティブな応用には、これらの手法の使用を推奨し、最終分類器の品質を測定するためのスプリアスネスメトリックを提案する。
関連論文リスト
- Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。
本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。
我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文 参考訳(メタデータ) (2024-07-19T17:50:11Z) - Explaining Explainability: Understanding Concept Activation Vectors [35.37586279472797]
最近の解釈可能性法では、概念に基づく説明を用いて、ディープラーニングモデルの内部表現を、人間が慣れ親しんだ言語に翻訳する。
これは、ニューラルネットワークの表現空間にどの概念が存在するかを理解する必要がある。
本研究では,概念活性化ベクトル(Concept Activation Vectors, CAV)の3つの特性について検討する。
本研究では,これらの特性の存在を検出するためのツールを導入し,それらが引き起こした説明にどのように影響するかを把握し,その影響を最小限に抑えるための推奨事項を提供する。
論文 参考訳(メタデータ) (2024-04-04T17:46:20Z) - Concept Distillation: Leveraging Human-Centered Explanations for Model
Improvement [3.026365073195727]
概念活性化ベクトル(Concept Activation Vectors, CAV)は、ある概念に対するモデルの感度と潜在的なバイアスを推定する。
微調整によりモデルバイアスを低減するため,CAVをポストホック解析からアンテホックトレーニングに拡張する。
本稿では,いくつかの分類問題に対する概念感受性トレーニングの応用について述べる。
論文 参考訳(メタデータ) (2023-11-26T14:00:14Z) - Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-10-23T04:35:58Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - LEACE: Perfect linear concept erasure in closed form [103.61624393221447]
概念消去は、特定の特徴を表現から削除することを目的としている。
LEAst-squares Concept Erasure (LEACE) は、線形分類器が可能な限り少ない表現で概念を検出することを確実に防止する閉形式手法である。
LEACEを"concept scrubbing"と呼ばれる新しい手法で大規模言語モデルに適用し、ネットワーク内の各層からターゲット概念情報を消去する。
論文 参考訳(メタデータ) (2023-06-06T16:07:24Z) - Statistically Significant Concept-based Explanation of Image Classifiers
via Model Knockoffs [22.576922942465142]
概念に基づく説明は、非関連概念を予測タスクにとって重要であると誤解する偽陽性を引き起こす可能性がある。
深層学習モデルを用いて画像概念を学習し,Knockoffサンプルを用いて予測のための重要な概念を選択する手法を提案する。
論文 参考訳(メタデータ) (2023-05-27T05:40:05Z) - DISSECT: Disentangled Simultaneous Explanations via Concept Traversals [33.65478845353047]
DISSECTは、ディープラーニングモデル推論を説明するための新しいアプローチである。
DISSECTは、分類器の信号から生成モデルを訓練することにより、異なる概念の分類器固有の「名詞」を発見する方法を提供する。
DISSECTは,複数の概念を分離し,共同訓練による推論と結合したCTを生成する。
論文 参考訳(メタデータ) (2021-05-31T17:11:56Z) - Contrastive Explanations for Model Interpretability [77.92370750072831]
分類モデルの対照的説明を生成する手法を提案する。
本手法は潜在空間へのモデル表現の投影に基づいている。
本研究は,モデル決定のより正確できめ細かな解釈性を提供するためのラベルコントラスト的説明の能力に光を当てた。
論文 参考訳(メタデータ) (2021-03-02T00:36:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。