論文の概要: Obliviator Reveals the Cost of Nonlinear Guardedness in Concept Erasure
- arxiv url: http://arxiv.org/abs/2603.07529v1
- Date: Sun, 08 Mar 2026 08:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.718066
- Title: Obliviator Reveals the Cost of Nonlinear Guardedness in Concept Erasure
- Title(参考訳): Obliviatorが概念消去における非線形ガードネスのコストを公表
- Authors: Ramin Akbari, Milad Afshari, Vishnu Naresh Boddeti,
- Abstract要約: 概念消去は、学習された表現から社会的・人口的要因などの望ましくない属性を取り除くことを目的としている。
従来の手法では、学習された表現と望ましくない属性の間の複雑で非線形な統計的依存関係を完全に把握できなかった。
Obliviatorは,非線形統計的依存関係を完全に捕捉するポストホック消去法である。
- 参考スコア(独自算出の注目度): 15.574717738100725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Concept erasure aims to remove unwanted attributes, such as social or demographic factors, from learned representations, while preserving their task-relevant utility. While the goal of concept erasure is protection against all adversaries, existing methods remain vulnerable to nonlinear ones. This vulnerability arises from their failure to fully capture the complex, nonlinear statistical dependencies between learned representations and unwanted attributes. Moreover, although the existence of a trade-off between utility and erasure is expected, its progression during the erasure process, i.e., the cost of erasure, remains unstudied. In this work, we introduce Obliviator, a post-hoc erasure method designed to fully capture nonlinear statistical dependencies. We formulate erasure from a functional perspective, leading to an optimization problem involving a composition of kernels that lacks a closed-form solution. Instead of solving this problem in a single shot, we adopt an iterative approach that gradually morphs the feature space to achieve a more utility-preserving erasure. Unlike prior methods, Obliviator guards unwanted attribute against nonlinear adversaries. Our gradual approach quantifies the cost of nonlinear guardedness and reveals the dynamics between attribute protection and utility-preservation over the course of erasure. The utility-erasure trade-off curves obtained by Obliviator outperform the baselines and demonstrate its strong generalizability: its erasure becomes more utility-preserving when applied to the better-disentangled representations learned by more capable models.
- Abstract(参考訳): 概念消去は、社会的・人口的要因などの望ましくない属性を学習された表現から取り除き、タスク関連ユーティリティを保存することを目的としている。
概念消去の目標は、全ての敵に対する保護であるが、既存の手法は、非線形に弱いままである。
この脆弱性は、学習された表現と望ましくない属性の間の複雑で非線形な統計的依存関係を完全に把握できなかったことから生じる。
また、実用性と消去のトレードオフの存在が期待されるが、消去の過程での進歩、すなわち消去コストは未検討のままである。
そこで本研究では,非線形統計的依存関係を完全に把握するポストホック消去法であるObliviatorを紹介する。
我々は機能の観点から消去を定式化し、閉形式解に欠けるカーネルの構成を含む最適化問題に繋がる。
この問題を1ショットで解決するのではなく,機能空間を徐々に変化させて,より実用性のある消去を実現する,反復的なアプローチを採用しています。
従来の方法とは異なり、Obliviatorは非線形敵に対する望ましくない属性を保護している。
我々の漸進的なアプローチは、非線形ガードネスのコストを定量化し、消去過程における属性保護とユーティリティ保存のダイナミクスを明らかにする。
Obliviatorによって得られたユーティリティ・エミッションのトレードオフ曲線はベースラインを上回り、その強力な一般化性を示す。
関連論文リスト
- CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models [7.68494752148263]
CUREは、事前訓練された拡散モデルの重み空間で直接動作する、トレーニング不要の概念未学習フレームワークである。
スペクトル消去器は、安全な属性を保持しながら、望ましくない概念に特有の特徴を特定し、分離する。
CUREは、対象とする芸術スタイル、オブジェクト、アイデンティティ、明示的なコンテンツに対して、より効率的で徹底的な除去を実現する。
論文 参考訳(メタデータ) (2025-05-19T03:53:06Z) - Linear Adversarial Concept Erasure [108.37226654006153]
与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。
提案手法は, トラクタビリティと解釈性を維持しつつ, 深い非線形分類器のバイアスを効果的に軽減し, 高い表現性を有することを示す。
論文 参考訳(メタデータ) (2022-01-28T13:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。