論文の概要: Preserving Task-Relevant Information Under Linear Concept Removal
- arxiv url: http://arxiv.org/abs/2506.10703v1
- Date: Thu, 12 Jun 2025 13:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.75697
- Title: Preserving Task-Relevant Information Under Linear Concept Removal
- Title(参考訳): 線形概念除去によるタスク関連情報の保存
- Authors: Floris Holstege, Shauli Ravfogel, Bram Wouters,
- Abstract要約: SPLICEは、ターゲットラベルとの共分散を維持しながら、表現からセンシティブな概念を排除します。
これは線形の概念予測可能性を取り除き、最小の埋め込み歪みで目標共分散を維持するユニークな解である。
実証的には、SPLICEはBias in BiosやWinobiasなどのベンチマークでベースラインを上回っている。
- 参考スコア(独自算出の注目度): 19.953631890863498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern neural networks often encode unwanted concepts alongside task-relevant information, leading to fairness and interpretability concerns. Existing post-hoc approaches can remove undesired concepts but often degrade useful signals. We introduce SPLICE-Simultaneous Projection for LInear concept removal and Covariance prEservation-which eliminates sensitive concepts from representations while exactly preserving their covariance with a target label. SPLICE achieves this via an oblique projection that "splices out" the unwanted direction yet protects important label correlations. Theoretically, it is the unique solution that removes linear concept predictability and maintains target covariance with minimal embedding distortion. Empirically, SPLICE outperforms baselines on benchmarks such as Bias in Bios and Winobias, removing protected attributes while minimally damaging main-task information.
- Abstract(参考訳): 現代のニューラルネットワークは、しばしばタスク関連情報とともに不要な概念を符号化し、公正性と解釈可能性に関する懸念を引き起こす。
既存のポストホックアプローチは望ましくない概念を排除できるが、しばしば有用な信号を分解する。
本稿では,Linearの概念除去のためのSPLICE-Simultaneous Projectionと,目的ラベルとの共分散を正確に保ったまま表現からセンシティブな概念を除去するCovariance preservationを導入する。
SPLICEは、望ましくない方向を"スライスアウト"する斜め投影を通じてこれを達成し、重要なラベル相関を保護します。
理論的には、線形の概念予測可能性を取り除き、最小の埋め込み歪みで目標共分散を維持するユニークな解である。
実証的には、SPLICEはBias in BiosやWinobiasなどのベンチマークでベースラインを上回り、保護された属性を削除し、メインタスク情報を最小限に損傷する。
関連論文リスト
- CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models [6.738409533239947]
CUREは、事前訓練された拡散モデルの重み空間で直接動作する、トレーニング不要の概念未学習フレームワークである。
スペクトル消去器は、安全な属性を保持しながら、望ましくない概念に特有の特徴を特定し、分離する。
CUREは、対象とする芸術スタイル、オブジェクト、アイデンティティ、明示的なコンテンツに対して、より効率的で徹底的な除去を実現する。
論文 参考訳(メタデータ) (2025-05-19T03:53:06Z) - UPCORE: Utility-Preserving Coreset Selection for Balanced Unlearning [57.081646768835704]
ユーザ仕様や法的フレームワークは、しばしば、大きな言語モデル(LLM)を含む、事前訓練されたモデルから削除される情報を必要とする。
これは、既に訓練済みのモデルからデータポイントのセットを削除または"偽造"する必要がある。
本研究では,非学習時の副次的損傷を軽減するための手法に依存しないデータ選択フレームワークUPCOREを提案する。
論文 参考訳(メタデータ) (2025-02-20T22:51:10Z) - RealEra: Semantic-level Concept Erasure via Neighbor-Concept Mining [25.769144703607214]
概念消去は、モデルが保護され不適切な概念に関する知識を取り除くために提案されている。
この「概念残余」問題に対処するためにRealEraを提案する。
また,RealEraは,有効性,特異性,汎用性において,従来の消去方法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-10-11T17:55:30Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - Deep Concept Removal [29.65899467379793]
ディープニューラルネットワークにおける概念除去の問題に対処する。
本稿では,概念データセットに基づいて学習した逆線形分類器に基づく新しい手法を提案する。
また,逆行訓練に伴う課題に対処するために,暗黙の勾配に基づく手法を導入する。
論文 参考訳(メタデータ) (2023-10-09T14:31:03Z) - LEACE: Perfect linear concept erasure in closed form [97.78661458934953]
概念消去は、埋め込みから特定の機能を削除することを目的としている。
LEAst-squares Concept Erasure (LEACE) は、すべての線形分類器が可能な限り少ない埋め込みで概念を検出することを確実に防止する閉形式手法である。
LEACEを"concept scrubbing"と呼ばれる新しい手法で大規模言語モデルに適用し、ネットワーク内の各層からターゲット概念情報を消去する。
論文 参考訳(メタデータ) (2023-06-06T16:07:24Z) - Trust your neighbours: Penalty-based constraints for model calibration [19.437451462590108]
SVLSの制約付き最適化の観点を示し、周辺画素のソフトクラス比に暗黙の制約を課すことを示した。
本稿では,ロジット値の等式制約に基づく基本的かつ単純な解を提案し,強制制約と罰則の重みを明示的に制御する。
論文 参考訳(メタデータ) (2023-03-11T01:10:26Z) - Supercharging Imbalanced Data Learning With Energy-based Contrastive
Representation Transfer [72.5190560787569]
コンピュータビジョンにおいて、長い尾のデータセットからの学習は、特に自然画像データセットの繰り返しのテーマである。
本稿では,データ生成機構がラベル条件と特徴分布の間で不変であるメタ分散シナリオを提案する。
これにより、因果データインフレーションの手順を利用してマイノリティクラスの表現を拡大できる。
論文 参考訳(メタデータ) (2020-11-25T00:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。