論文の概要: Why Instruction-Based Unlearning Fails in Diffusion Models?
- arxiv url: http://arxiv.org/abs/2604.01514v1
- Date: Thu, 02 Apr 2026 01:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.179448
- Title: Why Instruction-Based Unlearning Fails in Diffusion Models?
- Title(参考訳): 拡散モデルにおける教示に基づく未学習はなぜ失敗するのか?
- Authors: Zeliang Zhang, Rui Sun, Jiani Liu, Qi Wu, Chenliang Xu,
- Abstract要約: 拡散モデルは、自然言語の未学習命令のみによってガイドされる場合、対象概念を抑えることができないことを示す。
結果は、効果的な非学習には推論時言語制御以上の介入が必要であることを示唆している。
- 参考スコア(独自算出の注目度): 48.60813003005658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-based unlearning has proven effective for modifying the behavior of large language models at inference time, but whether this paradigm extends to other generative models remains unclear. In this work, we investigate instruction-based unlearning in diffusion-based image generation models and show, through controlled experiments across multiple concepts and prompt variants, that diffusion models systematically fail to suppress targeted concepts when guided solely by natural-language unlearning instructions. By analyzing both the CLIP text encoder and cross-attention dynamics during the denoising process, we find that unlearning instructions do not induce sustained reductions in attention to the targeted concept tokens, causing the targeted concept representations to persist throughout generation. These results reveal a fundamental limitation of prompt-level instruction in diffusion models and suggest that effective unlearning requires interventions beyond inference-time language control.
- Abstract(参考訳): インストラクションに基づくアンラーニングは、推論時に大きな言語モデルの振る舞いを変更するのに有効であることが証明されているが、このパラダイムが他の生成モデルに拡張されるかどうかはまだ不明である。
本研究では,拡散に基づく画像生成モデルにおける教示に基づくアンラーニングについて検討し,複数の概念に対する制御実験を通じて,拡散モデルが自然言語によるアンラーニング指導のみで指導された場合,対象概念を体系的に抑制できないことを示す。
CLIPテキストエンコーダとクロスアテンションダイナミクスの両方を分析して、未学習の命令は目標となる概念トークンに注意を向け、持続的な縮小を誘導しないため、ターゲットとなる概念表現は世代を通して持続する。
これらの結果は,拡散モデルにおけるプロンプトレベル指導の基本的な制限を明らかにし,推論時言語制御以上の介入を必要とすることを示唆している。
関連論文リスト
- NEGATE: Constrained Semantic Guidance for Linguistic Negation in Text-to-Video Diffusion [20.606497274927367]
否定は基本的な言語演算子であるが、拡散に基づく生成システムでは不十分にモデル化されている。
本稿では,拡散に基づく生成モデルにおける言語否定の形式的扱いについて,意味指導に基づく構造的可能性制約としてモデル化する。
本手法は,視覚的忠実度と構造的コヒーレンスを維持しつつ,堅牢な否定コンプライアンスを実現する。
論文 参考訳(メタデータ) (2026-03-06T18:21:49Z) - From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model [72.73512218682187]
ReDiff(Refining-enhanced diffusion framework)は、モデルに自身のエラーを特定し、修正するように教えるフレームワークである。
まず、合成エラーを修正するためにモデルをトレーニングすることで、基礎的なリビジョン機能を具現化し、次に、新しいオンライン自己補正ループを実装します。
この誤り駆動学習は、モデルに既存の出力を再検討し、洗練する重要な能力を与え、エラーカスケードを効果的に破壊する。
論文 参考訳(メタデータ) (2025-10-22T06:58:55Z) - Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [65.85335291827086]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - Diffusion Imitation from Observation [4.205946699819021]
敵対的模倣学習アプローチは、差別者と区別できない状態遷移を生成するために、ジェネレータポリシーを学ぶ。
生成モデルにおける拡散モデルの成功を動機として,観測フレームワークからの逆模倣学習に拡散モデルを統合することを提案する。
論文 参考訳(メタデータ) (2024-10-07T18:49:55Z) - Latent Diffusion Counterfactual Explanations [28.574246724214962]
潜在拡散対実説明(LDCE)について紹介する。
LDCEは、最近のクラスまたはテキスト条件の潜在拡散モデルの能力を利用して、対実生成を高速化する。
LDCEがモデルエラーに対する洞察を提供し、ブラックボックスモデル行動の理解を深める方法を示す。
論文 参考訳(メタデータ) (2023-10-10T14:42:34Z) - Diffusion Model-Augmented Behavioral Cloning [4.363232795241617]
本研究は、専門家分布の条件付き確率と結合確率の両方をモデル化することの恩恵を受ける模倣学習フレームワークを提案する。
提案した拡散モデル拡張行動クローン(DBC)は,専門家の行動のモデル化に訓練された拡散モデルを用いて,BC損失(条件)と拡散モデル損失(ジョイント)の両方を最適化する政策を学習する。
論文 参考訳(メタデータ) (2023-02-26T15:40:09Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - PSSAT: A Perturbed Semantic Structure Awareness Transferring Method for
Perturbation-Robust Slot Filling [27.602336774468]
既存のスロットフィリングモデルの多くは、トレーニングデータからエンティティとそれに対応するコンテキストの固有のパターンを記憶する傾向がある。
本稿では,摂動-ロバストスロット充填モデルの訓練のための意味認識構造伝達法を提案する。
論文 参考訳(メタデータ) (2022-08-24T13:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。