論文の概要: Selective Fine-Tuning for Targeted and Robust Concept Unlearning
- arxiv url: http://arxiv.org/abs/2602.07919v1
- Date: Sun, 08 Feb 2026 11:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.872189
- Title: Selective Fine-Tuning for Targeted and Robust Concept Unlearning
- Title(参考訳): 目標概念とロバスト概念の未学習のための選択的な微調整
- Authors: Mansi, Avinash Kori, Francesca Toni, Soteris Demetriou,
- Abstract要約: 信頼は、標的となる概念ニューロンを動的に推定し、選択的な微調整によってそれらを学習する新しいアプローチである。
我々は,多くのSOTAベースラインに対して,TRUSTが敵のプロンプトに対して堅牢であることを示す。
本手法は,個々の概念だけでなく,特定の正規化を伴わずに,概念と条件付き概念の組み合わせの未学習を実現する。
- 参考スコア(独自算出の注目度): 18.023332563263278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text guided diffusion models are used by millions of users, but can be easily exploited to produce harmful content. Concept unlearning methods aim at reducing the models' likelihood of generating harmful content. Traditionally, this has been tackled at an individual concept level, with only a handful of recent works considering more realistic concept combinations. However, state of the art methods depend on full finetuning, which is computationally expensive. Concept localisation methods can facilitate selective finetuning, but existing techniques are static, resulting in suboptimal utility. In order to tackle these challenges, we propose TRUST (Targeted Robust Selective fine Tuning), a novel approach for dynamically estimating target concept neurons and unlearning them through selective finetuning, empowered by a Hessian based regularization. We show experimentally, against a number of SOTA baselines, that TRUST is robust against adversarial prompts, preserves generation quality to a significant degree, and is also significantly faster than the SOTA. Our method achieves unlearning of not only individual concepts but also combinations of concepts and conditional concepts, without any specific regularization.
- Abstract(参考訳): テキスト誘導拡散モデルは何百万人ものユーザによって使用されているが、有害なコンテンツを生成するために簡単に利用することができる。
概念未学習の手法は、有害なコンテンツを生成する可能性を減らすことを目的としている。
伝統的に、これは個々の概念レベルで取り組まれており、より現実的な概念の組み合わせを検討する最近の研究はごくわずかである。
しかし、最先端の手法は計算コストのかかる完全な微調整に依存している。
概念のローカライゼーション手法は選択的な微調整を容易にするが、既存の手法は静的であり、結果として準最適性をもたらす。
これらの課題に対処するために、ターゲットロバスト選択微調整(TRUST)を提案する。
我々は,多くのSOTAベースラインに対して,TRUSTは敵のプロンプトに対して堅牢であり,生成品質を著しく保ち,SOTAよりも著しく高速であることを示す。
本手法は,個々の概念だけでなく,特定の正規化を伴わずに,概念と条件付き概念の組み合わせの未学習を実現する。
関連論文リスト
- Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts [12.04985139116705]
我々は、望ましくない概念を避けるためにdeNoising TrajectoriesをガイドするANTと呼ばれる微調整フレームワークを導入する。
ANTは重要な洞察に基づいて構築されている。
単一概念の消去のために,より徹底的かつ効率的な消去を可能にする拡張型重み対応マップを提案する。
マルチコンセプト消去のために,目的関数は汎用的なプラグアンドプレイソリューションを提供し,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-17T09:29:30Z) - ACE: Attentional Concept Erasure in Diffusion Models [0.0]
Attentional Concept Erasureは、クローズドフォームのアテンション操作と軽量な微調整を統合している。
ACEは最先端の概念の除去とロバスト性を実現する。
従来の方法と比較して、ACEは一般性(概念と関連する用語)と特異性(無関係なコンテンツを保存する)のバランスが良い。
論文 参考訳(メタデータ) (2025-04-16T08:16:28Z) - Continual Unlearning for Foundational Text-to-Image Models without Generalization Erosion [56.35484513848296]
本研究は,基本生成モデルから複数の特定の概念を対象とする除去を可能にする新しいパラダイムである連続的アンラーニングを導入する。
本稿では,望ましくない概念の生成を選択的に解き放つような一般化エロージョン(DUGE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-17T23:17:16Z) - Modular Customization of Diffusion Models via Blockwise-Parameterized Low-Rank Adaptation [73.16975077770765]
コンセプトのスタイリングやマルチコンセプトのカスタマイズといったアプリケーションには、モジュール化が不可欠である。
インスタントマージ法は、個々のマージされた概念のアイデンティティ損失と干渉を引き起こすことが多い。
個々の概念のアイデンティティを正確に保存しつつ,複数の概念を効率的に組み合わせたインスタントマージ手法であるBlockLoRAを提案する。
論文 参考訳(メタデータ) (2025-03-11T16:10:36Z) - SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models [56.83154571623655]
モデルパラメータを直接編集する効率的な概念消去手法であるSPEEDを導入する。
Speedyは、パラメータ更新がターゲット以外の概念に影響しないモデル編集スペースであるnullスペースを検索する。
たった5秒で100のコンセプトを消去しました。
論文 参考訳(メタデータ) (2025-03-10T14:40:01Z) - Concept Steerers: Leveraging K-Sparse Autoencoders for Test-Time Controllable Generations [5.2956273221301835]
テキスト・ツー・イメージ生成モデルは、敵対的な攻撃をしがちであり、不安全で非倫理的なコンテンツを不注意に生成する。
我々は,k-スパースオートエンコーダ(k-SAE)を活用して,効率的な,解釈可能な概念操作を実現する新しいフレームワークを提案する。
提案手法は, 安全でない概念除去において$mathbf20.01%$の改善を実現し, スタイル操作に有効であり, 現在の最先端技術よりも$mathbfsim5$x高速である。
論文 参考訳(メタデータ) (2025-01-31T11:52:47Z) - Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.698305103879232]
我々はtextbfDoCo (textbfDomaintextbfCorrection) という新しい概念領域補正フレームワークを提案する。
本手法は, 対象概念の包括的未学習を保証し, 先進的学習を通して, センシティブな概念とアンカーの概念の出力領域を整合させることにより, 対象概念の包括的未学習を確実にする。
また、矛盾する勾配成分を緩和し、特定の概念を学習しながらモデルの実用性を維持するための概念保存的勾配手術手法も導入する。
論文 参考訳(メタデータ) (2024-05-24T07:47:36Z) - Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models [57.86303579812877]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の理解可能な概念に基づいて、解釈可能なモデル決定を可能にする画像分類である。
既存のアプローチは、強いパフォーマンスを達成するために、画像ごとに多数の人間の介入を必要とすることが多い。
本稿では,概念関係を利用した学習型概念認識介入モジュールについて紹介する。
論文 参考訳(メタデータ) (2024-05-02T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。