論文の概要: TINA: Text-Free Inversion Attack for Unlearned Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2603.17828v1
- Date: Wed, 18 Mar 2026 15:25:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.785642
- Title: TINA: Text-Free Inversion Attack for Unlearned Text-to-Image Diffusion Models
- Title(参考訳): TINA:未知のテキスト・画像拡散モデルに対するテキストフリー・インバージョン・アタック
- Authors: Qianlong Xiang, Miao Zhang, Haoyu Zhang, Kun Wang, Junhui Hou, Liqiang Nie,
- Abstract要約: テキスト中心のパラダイムは、消去とテキスト・ツー・イメージマッピングの厳密さを同一視し、望ましくない概念に関する基礎となる視覚的知識が今も続いていることを無視する。
我々は、この視覚のみのプローブをNull-text条件下で動作させることで、新しいテキストフリーのインバージョンアタックであるTinaを紹介する。
我々の実験では、Tinaは最先端の未学習モデルから消去された概念を再生することを示した。
- 参考スコア(独自算出の注目度): 92.56562999211809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although text-to-image diffusion models exhibit remarkable generative power, concept erasure techniques are essential for their safe deployment to prevent the creation of harmful content. This has fostered a dynamic interplay between the development of erasure defenses and the adversarial probes designed to bypass them, and this co-evolution has progressively enhanced the efficacy of erasure methods. However, this adversarial co-evolution has converged on a narrow, text-centric paradigm that equates erasure with severing the text-to-image mapping, ignoring that the underlying visual knowledge related to undesired concepts still persist. To substantiate this claim, we investigate from a visual perspective, leveraging DDIM inversion to probe whether a generative pathway for the erased concept can still be found. However, identifying such a visual generative pathway is challenging because standard text-guided DDIM inversion is actively resisted by text-centric defenses within the erased model. To address this, we introduce TINA, a novel Text-free INversion Attack, which enforces this visual-only probe by operating under a null-text condition, thereby avoiding existing text-centric defenses. Moreover, TINA integrates an optimization procedure to overcome the accumulating approximation errors that arise when standard inversion operates without its usual textual guidance. Our experiments demonstrate that TINA regenerates erased concepts from models treated with state-of-the-art unlearning. The success of TINA proves that current methods merely obscure concepts, highlighting an urgent need for paradigms that operate directly on internal visual knowledge.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルは優れた生成力を示すが、有害なコンテンツの生成を防ぐための安全な配置には概念消去技術が不可欠である。
このことは、消去防衛の発展とそれらを回避するために設計された敵プローブとのダイナミックな相互作用を育み、この共進化は、消去方法の有効性を徐々に向上させてきた。
しかし、この敵対的共進化は、望ましくない概念に関する基礎となる視覚的知識が今も継続していることを無視して、消去をテキスト・ツー・イメージ・マッピングの切断と同一視する、狭義のテキスト中心のパラダイムに収束している。
この主張を裏付けるために, DDIMの逆転を利用した視覚的視点から, 消去概念の生成経路がまだ発見できるかどうかを考察する。
しかし、標準的なテキスト誘導DDIMインバージョンは、消去されたモデル内のテキスト中心の防御によって積極的に抵抗されるため、このような視覚的生成経路の同定は困難である。
この問題に対処するため,テキストフリーの逆転攻撃であるTINAを導入し,ヌルテキスト条件下での動作により,既存のテキスト中心の防御を回避することで,この視覚のみのプローブを強制する。
さらに、TINAは、標準反転が通常のテキストガイダンスなしで動作したときに発生する近似誤差を克服する最適化手順を統合する。
実験により,TINAは最先端の未学習モデルから消去概念を再生することを示した。
TINAの成功は、現在の手法が単に曖昧な概念に過ぎず、内部の視覚的知識を直接操作するパラダイムの緊急な必要性を強調していることを証明している。
関連論文リスト
- Semantic Surgery: Zero-Shot Concept Erasure in Diffusion Models [27.672305802461377]
拡散プロセスの前にテキスト埋め込みを直接操作する,概念消去のための新しいトレーニングフリーゼロショットフレームワークを提案する。
我々は、局所性と画質を保ちながら、優れた完全性と堅牢性を達成する。
この堅牢性により、我々のフレームワークは脅威検出システムとして機能し、より安全なテキスト・画像生成のための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-26T22:04:17Z) - One Image is Worth a Thousand Words: A Usability Preservable Text-Image Collaborative Erasing Framework [127.07102988701092]
我々は、最初のテキストイメージ協調概念消去(Co-Erasing)フレームワークを紹介する。
Co-Erasingは、テキストプロンプトと、プロンプトによって誘導されるそれに対応する望ましくないイメージによって、この概念を共同で記述する。
我々は,テキストガイドによる画像概念の洗練戦略を設計し,特定のテキスト概念に最も関係のある視覚的特徴に焦点を当てるようモデルに指示する。
論文 参考訳(メタデータ) (2025-05-16T11:25:50Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [53.937498564603054]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - Continuous Concepts Removal in Text-to-image Diffusion Models [27.262721132177845]
著作権を侵害したり、乱暴な主題を描写するコンテンツを作成するためのテキスト・ツー・イメージモデルの可能性について懸念が高まっている。
本稿では,知識蒸留パラダイムを設計したCCRTという新しい手法を提案する。
一連のテキストプロンプトを使用することで、連続的な概念削除プロセス中のテキストイメージのアライメント動作を制限します。
論文 参考訳(メタデータ) (2024-11-30T20:40:10Z) - Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。
実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文 参考訳(メタデータ) (2024-07-17T05:21:41Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。