論文の概要: LEACE: Perfect linear concept erasure in closed form
- arxiv url: http://arxiv.org/abs/2306.03819v3
- Date: Sun, 29 Oct 2023 21:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 21:39:08.146271
- Title: LEACE: Perfect linear concept erasure in closed form
- Title(参考訳): LEACE: 閉形式の完全線形概念消去
- Authors: Nora Belrose, David Schneider-Joseph, Shauli Ravfogel, Ryan Cotterell,
Edward Raff, Stella Biderman
- Abstract要約: 概念消去は、特定の特徴を表現から削除することを目的としている。
LEAst-squares Concept Erasure (LEACE) は、線形分類器が可能な限り少ない表現で概念を検出することを確実に防止する閉形式手法である。
LEACEを"concept scrubbing"と呼ばれる新しい手法で大規模言語モデルに適用し、ネットワーク内の各層からターゲット概念情報を消去する。
- 参考スコア(独自算出の注目度): 103.61624393221447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Concept erasure aims to remove specified features from a representation. It
can improve fairness (e.g. preventing a classifier from using gender or race)
and interpretability (e.g. removing a concept to observe changes in model
behavior). We introduce LEAst-squares Concept Erasure (LEACE), a closed-form
method which provably prevents all linear classifiers from detecting a concept
while changing the representation as little as possible, as measured by a broad
class of norms. We apply LEACE to large language models with a novel procedure
called "concept scrubbing," which erases target concept information from every
layer in the network. We demonstrate our method on two tasks: measuring the
reliance of language models on part-of-speech information, and reducing gender
bias in BERT embeddings. Code is available at
https://github.com/EleutherAI/concept-erasure.
- Abstract(参考訳): 概念消去は、特定の特徴を表現から削除することを目的としている。
公平性(例えば、分類器が性別や人種を使用するのを防ぐ)や解釈性(例えば、モデルの振る舞いの変化を観察するための概念を削除する)を改善することができる。
そこで我々は,LEAst-squares Concept Erasure (LEACE)を導入し,すべての線形分類器が可能な限り少ない値で表現を変更しながら概念を検出することを確実に防止する閉形式手法を提案する。
我々は,ネットワークの各層から対象概念情報を消去する「概念スクラブ」と呼ばれる新しい手法を用いて,大規模言語モデルに適用する。
提案手法は,音声情報への言語モデルの依存度を計測し,BERT埋め込みにおける性別バイアスを低減するという2つの課題について実証する。
コードはhttps://github.com/eleutherai/concept-erasureで入手できる。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Concept Distillation: Leveraging Human-Centered Explanations for Model
Improvement [3.026365073195727]
概念活性化ベクトル(Concept Activation Vectors, CAV)は、ある概念に対するモデルの感度と潜在的なバイアスを推定する。
微調整によりモデルバイアスを低減するため,CAVをポストホック解析からアンテホックトレーニングに拡張する。
本稿では,いくつかの分類問題に対する概念感受性トレーニングの応用について述べる。
論文 参考訳(メタデータ) (2023-11-26T14:00:14Z) - Implicit Concept Removal of Diffusion Models [96.03200681493348]
テキスト・ツー・イメージ(T2I)拡散モデルは、透かしや安全でない画像などの不要な概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - A Geometric Notion of Causal Probing [91.14470073637236]
言語モデルの表現空間では、動詞数のような概念に関するすべての情報が線形部分空間に符号化される。
理想線型概念部分空間を特徴づける内在的基準のセットを与える。
LEACEは概念情報の約半分を含む1次元の部分空間を返す。
論文 参考訳(メタデータ) (2023-07-27T17:57:57Z) - Identifying Interpretable Subspaces in Image Representations [54.821222487956355]
コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。
ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。
キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
論文 参考訳(メタデータ) (2023-07-20T00:02:24Z) - Interpreting Embedding Spaces by Conceptualization [2.620130580437745]
本稿では,埋め込み空間を理解可能な概念空間に変換することによって,埋め込みを理解する新しい方法を提案する。
本研究では,人間のレーダやLDMをベースとしたレーダを用いた新しい評価手法を考案し,ベクトルが本来の潜伏状態のセマンティクスを実際に表現していることを示す。
論文 参考訳(メタデータ) (2022-08-22T15:32:17Z) - Probing Classifiers are Unreliable for Concept Removal and Detection [18.25734277357466]
テキストデータに基づいてトレーニングされたニューラルネットワークモデルは、その表現において望ましくない言語的あるいはセンシティブな概念を符号化する。
近年の研究では、そのような不要な概念をモデル表現から除去するためのポストホックおよび逆法が提案されている。
これらの手法は非生産的であり、最悪の場合、すべてのタスク関連機能を破壊する可能性がある。
論文 参考訳(メタデータ) (2022-07-08T23:15:26Z) - Kernelized Concept Erasure [108.65038124096907]
概念消去のための線形ミニマックスゲームのカーネル化を提案する。
特定の非線形敵が概念を予測するのを防ぐことができる。
しかし、保護は異なる非線形敵に移動しない。
論文 参考訳(メタデータ) (2022-01-28T15:45:13Z) - Medical Concept Normalization in User Generated Texts by Learning Target
Concept Embeddings [5.33024001730262]
最近の研究は、テキスト分類またはテキストマッチングとして、正規化の概念を定めている。
提案モデルでは,入力概念の参照とターゲット概念の表現を共同で学習することで,これらの欠点を克服する。
我々のモデルは、精度を2.31%向上させることで、3つの標準データセットにまたがる既存のメソッドをすべて上回ります。
論文 参考訳(メタデータ) (2020-06-07T01:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。