Fugu-MT 論文翻訳(概要): LEACE: Perfect linear concept erasure in closed form

論文の概要: LEACE: Perfect linear concept erasure in closed form

arxiv url: http://arxiv.org/abs/2306.03819v1
Date: Tue, 6 Jun 2023 16:07:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 14:38:18.582572
Title: LEACE: Perfect linear concept erasure in closed form
Title（参考訳）: LEACE: 閉形式の完全線形概念消去
Authors: Nora Belrose, David Schneider-Joseph, Shauli Ravfogel, Ryan Cotterell, Edward Raff, Stella Biderman
Abstract要約: 概念消去は公平性と解釈可能性を改善するために使用できる。 LEAst-squares Concept Erasure (LEACE) は、すべての線形分類器が概念を検出するのを確実に防止する閉形式である。 LEACEを"concept scrubbing"と呼ばれる新しい手法で大規模言語モデルに適用し、ネットワーク内の各層からターゲット概念情報を消去する。
参考スコア（独自算出の注目度）: 73.90675507217074
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Concept erasure aims to remove specified features from a representation. It can be used to improve fairness (e.g. preventing a classifier from using gender or race) and interpretability (e.g. removing a concept to observe changes in model behavior). In this paper, we introduce LEAst-squares Concept Erasure (LEACE), a closed-form method which provably prevents all linear classifiers from detecting a concept while inflicting the least possible damage to the representation. We apply LEACE to large language models with a novel procedure called "concept scrubbing," which erases target concept information from every layer in the network. We demonstrate the usefulness of our method on two tasks: measuring the reliance of language models on part-of-speech information, and reducing gender bias in BERT embeddings. Code is available at https://github.com/EleutherAI/concept-erasure.
Abstract（参考訳）: 概念消去は、特定の特徴を表現から削除することを目的としている。公平性(例えば、分類器が性別や人種を使用するのを防ぐこと)と解釈可能性(例えば、モデル行動の変化を観察するために概念を削除すること)を改善するために使用できる。本稿では,すべての線形分類器が概念を検出できないようにし,その表現に最小のダメージを与える閉形式法である最小二乗概念消去法(leace)を提案する。我々は,ネットワークの各層から対象概念情報を消去する「概念スクラブ」と呼ばれる新しい手法を用いて,大規模言語モデルに適用する。本稿では,言語モデルの音声情報への依存度の測定と,BERT埋め込みにおける性別バイアスの低減という2つの課題に対して,本手法の有効性を示す。コードはhttps://github.com/eleutherai/concept-erasureで入手できる。

関連論文リスト

Align-then-Unlearn: Embedding Alignment for LLM Unlearning [41.94295877935867]
Unlearningは、個人情報や著作権のあるコンテンツなど、訓練されたモデルから特定のデータを選択的に取り除こうとしている。セマンティック埋め込み空間においてアンラーニングを行う新しいフレームワークであるAlign-then-Unlearnを提案する。
論文参考訳（メタデータ） (2025-06-16T07:48:01Z)
ACE: Attentional Concept Erasure in Diffusion Models [0.0]
Attentional Concept Erasureは、クローズドフォームのアテンション操作と軽量な微調整を統合している。 ACEは最先端の概念の除去とロバスト性を実現する。従来の方法と比較して、ACEは一般性(概念と関連する用語)と特異性(無関係なコンテンツを保存する)のバランスが良い。
論文参考訳（メタデータ） (2025-04-16T08:16:28Z)
Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models [56.35484513848296]
FADE(Fine grained Attenuation for Diffusion Erasure)は、テキストから画像への生成モデルのための非学習アルゴリズムである。関連する概念に最小限の影響で目標概念を排除し、最先端の手法よりも保持性能が12%向上した。
論文参考訳（メタデータ） (2025-03-25T15:49:48Z)
Sparse Autoencoder as a Zero-Shot Classifier for Concept Erasing in Text-to-Image Diffusion Models [24.15603438969762]
Interpret then Deactivate (ItD) は、T2I拡散モデルにおける正確な概念除去を可能にする新しいフレームワークである。 ItDはスパースオートエンコーダを使用して、各概念を複数の機能の組み合わせとして解釈する。さらなるトレーニングを必要とせずに、簡単に複数の概念を消去できる。
論文参考訳（メタデータ） (2025-03-12T14:46:40Z)
Scaling Concept With Text-Guided Diffusion Models [53.80799139331966]
概念を置き換える代わりに、概念自体を強化するか、あるいは抑圧できるだろうか? ScalingConceptは、分解された概念を、新しい要素を導入することなく、実際の入力でスケールアップまたはスケールダウンする、シンプルで効果的な方法である。さらに重要なのは、ScalingConceptは画像とオーディオドメインにまたがる様々な新しいゼロショットアプリケーションを可能にすることだ。
論文参考訳（メタデータ） (2024-10-31T17:09:55Z)
Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文参考訳（メタデータ） (2024-10-06T13:09:48Z)
Explain via Any Concept: Concept Bottleneck Model with Open Vocabulary Concepts [8.028021897214238]
OpenCBMはオープン語彙の概念を持つ最初のCBMである。ベンチマークデータセットCUB-200-2011の分類精度は,従来のCBMよりも9%向上した。
論文参考訳（メタデータ） (2024-08-05T06:42:00Z)
Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文参考訳（メタデータ） (2024-07-19T17:50:11Z)
Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文参考訳（メタデータ） (2024-07-17T08:04:28Z)
Concept Distillation: Leveraging Human-Centered Explanations for Model Improvement [3.026365073195727]
概念活性化ベクトル(Concept Activation Vectors, CAV)は、ある概念に対するモデルの感度と潜在的なバイアスを推定する。微調整によりモデルバイアスを低減するため,CAVをポストホック解析からアンテホックトレーニングに拡張する。本稿では,いくつかの分類問題に対する概念感受性トレーニングの応用について述べる。
論文参考訳（メタデータ） (2023-11-26T14:00:14Z)
Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文参考訳（メタデータ） (2023-10-09T17:13:10Z)
A Geometric Notion of Causal Probing [91.14470073637236]
言語モデルの表現空間では、動詞数のような概念に関するすべての情報が線形部分空間に符号化される。理想線型概念部分空間を特徴づける内在的基準のセットを与える。 LEACEは概念情報の約半分を含む1次元の部分空間を返す。
論文参考訳（メタデータ） (2023-07-27T17:57:57Z)
Probing Classifiers are Unreliable for Concept Removal and Detection [18.25734277357466]
テキストデータに基づいてトレーニングされたニューラルネットワークモデルは、その表現において望ましくない言語的あるいはセンシティブな概念を符号化する。近年の研究では、そのような不要な概念をモデル表現から除去するためのポストホックおよび逆法が提案されている。これらの手法は非生産的であり、最悪の場合、すべてのタスク関連機能を破壊する可能性がある。
論文参考訳（メタデータ） (2022-07-08T23:15:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。