論文の概要: Automating Evaluation of Diffusion Model Unlearning with (Vision-) Language Model World Knowledge
- arxiv url: http://arxiv.org/abs/2507.07137v1
- Date: Wed, 09 Jul 2025 00:51:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.137095
- Title: Automating Evaluation of Diffusion Model Unlearning with (Vision-) Language Model World Knowledge
- Title(参考訳): 視覚)言語モデル世界知識を用いた拡散モデル学習の自動化評価
- Authors: Eric Yeats, Darryl Hannan, Henry Kvinge, Timothy Doster, Scott Mahan,
- Abstract要約: マシン・アンラーニング(英: Machine Unlearning、MU)は、基本的な拡散モデルから望ましくない情報(概念、バイアス、パターン)を浄化するコスト効率の良い方法である。
拡散モデルにおける未学習を徹底的に評価するために(ビジョン-)言語モデルを活用する自動ツールであるautoeval-dmunを導入する。
対象とする概念が与えられたとき、オートエスバル・ダンは言語モデルから構造化された関連する世界知識を抽出し、未学習によって損傷を受けやすい近くの概念を特定する。
- 参考スコア(独自算出の注目度): 6.4411440750013735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning (MU) is a promising cost-effective method to cleanse undesired information (generated concepts, biases, or patterns) from foundational diffusion models. While MU is orders of magnitude less costly than retraining a diffusion model without the undesired information, it can be challenging and labor-intensive to prove that the information has been fully removed from the model. Moreover, MU can damage diffusion model performance on surrounding concepts that one would like to retain, making it unclear if the diffusion model is still fit for deployment. We introduce autoeval-dmun, an automated tool which leverages (vision-) language models to thoroughly assess unlearning in diffusion models. Given a target concept, autoeval-dmun extracts structured, relevant world knowledge from the language model to identify nearby concepts which are likely damaged by unlearning and to circumvent unlearning with adversarial prompts. We use our automated tool to evaluate popular diffusion model unlearning methods, revealing that language models (1) impose semantic orderings of nearby concepts which correlate well with unlearning damage and (2) effectively circumvent unlearning with synthetic adversarial prompts.
- Abstract(参考訳): マシン・アンラーニング(MU)は、望ましくない情報(概念、バイアス、パターン)を基礎的な拡散モデルからきれいにするための有望なコスト効率の手法である。
MUは、望ましくない情報なしで拡散モデルをトレーニングするよりも桁違いにコストがかかるが、その情報がモデルから完全に取り除かれたことを証明するのは困難で労力がかかる。
さらに,MUは周辺概念の拡散モデルの性能を損なう可能性があり,拡散モデルがまだ展開に適合しているかどうかは不明である。
拡散モデルにおける未学習を徹底的に評価するために(ビジョン-)言語モデルを活用する自動ツールであるautoeval-dmunを導入する。
対象概念が与えられた場合、オートバル・ダンは言語モデルから構造化された関連する世界知識を抽出し、非学習によって損傷される可能性のある近くの概念を特定し、非学習を敵のプロンプトで回避する。
その結果,(1) 言語モデルが学習障害とよく相関する近隣概念のセマンティックな順序付けを課し,(2) 合成逆数による非学習を効果的に回避することを明らかにする。
関連論文リスト
- Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning [9.923268972395107]
DiffusionVLAは、自己回帰モデルと拡散モデルとをシームレスに組み合わせ、ビジュモータポリシーを学習するフレームワークである。
自己推論によるポリシー学習を強化するために,新しい推論インジェクションモジュールを導入する。
複数の実ロボットを用いて広範に実験を行い,DiffusionVLAの有効性を検証した。
論文 参考訳(メタデータ) (2024-12-04T13:11:38Z) - Score Forgetting Distillation: A Swift, Data-Free Method for Machine Unlearning in Diffusion Models [63.43422118066493]
マシン・アンラーニング(MU)は安全でセキュアで信頼性の高いGenAIモデルを開発する上で重要な基盤である。
従来のMUメソッドは、しばしば厳密な仮定に依存し、実際のデータへのアクセスを必要とする。
本稿では,拡散モデルにおいて望ましくない情報を忘れることを促進する革新的なMUアプローチであるScore Forgetting Distillation (SFD)を紹介する。
論文 参考訳(メタデータ) (2024-09-17T14:12:50Z) - Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models [7.9993879763024065]
本稿では,拡散モデルにおける未学習の5つの手法の理論的,実証的研究について述べる。
概念検索スコア(textbfCRS)と概念信頼スコア(textbfCCS)の2つの新しい評価指標を導入する。
論文 参考訳(メタデータ) (2024-09-09T14:38:31Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。