論文の概要: Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning
- arxiv url: http://arxiv.org/abs/2410.05664v2
- Date: Sun, 09 Mar 2025 05:17:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:43:11.511282
- Title: Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning
- Title(参考訳): ホロスティック・アンラーニングベンチマーク:テキストと画像の拡散モデルアンラーニングのための多面的評価
- Authors: Saemi Moon, Minjong Lee, Sangdon Park, Dongwoo Kim,
- Abstract要約: 概念アンラーニングは、非倫理的または有害なテキスト・ツー・イメージ拡散モデルの使用に対する有望な解決策である。
我々のベンチマークでは、33のターゲットコンセプトがカバーされており、1概念あたり16,000のプロンプトが含まれており、Celebrity、Style、Intellectual Property、NSFWの4つのカテゴリにまたがっている。
本研究は,全ての評価基準において1つの方法が排他的でないことを明らかにする。
- 参考スコア(独自算出の注目度): 8.831339626121848
- License:
- Abstract: As text-to-image diffusion models gain widespread commercial applications, there are increasing concerns about unethical or harmful use, including the unauthorized generation of copyrighted or sensitive content. Concept unlearning has emerged as a promising solution to these challenges by removing undesired and harmful information from the pre-trained model. However, the previous evaluations primarily focus on whether target concepts are removed while preserving image quality, neglecting the broader impacts such as unintended side effects. In this work, we propose Holistic Unlearning Benchmark (HUB), a comprehensive framework for evaluating unlearning methods across six key dimensions: faithfulness, alignment, pinpoint-ness, multilingual robustness, attack robustness, and efficiency. Our benchmark covers 33 target concepts, including 16,000 prompts per concept, spanning four categories: Celebrity, Style, Intellectual Property, and NSFW. Our investigation reveals that no single method excels across all evaluation criteria. By releasing our evaluation code and dataset, we hope to inspire further research in this area, leading to more reliable and effective unlearning methods.
- Abstract(参考訳): テキストから画像への拡散モデルが普及するにつれて、著作権やセンシティブなコンテンツの不正な生成など、非倫理的または有害な使用に関する懸念が高まっている。
未学習の概念は、事前学習されたモデルから望ましくない有害な情報を除去することで、これらの課題に対する有望な解決策として現れてきた。
しかし,従来の評価は,意図しない副作用などの広範な影響を無視しつつ,画像品質を維持しながら目標概念を除去するか否かに重点を置いていた。
本研究では,信頼度,アライメント,ピンポイントネス,マルチリンガルロバストネス,アタックロバストネス,効率の6つの主要な領域にわたる未学習手法を評価するための総合的なフレームワークであるHUBを提案する。
我々のベンチマークでは、33のターゲットコンセプトがカバーされており、1概念あたり16,000のプロンプトが含まれており、Celebrity、Style、Intellectual Property、NSFWの4つのカテゴリにまたがっている。
本研究は,全ての評価基準において1つの方法が排他的でないことを明らかにする。
評価コードとデータセットをリリースすることによって、この分野のさらなる研究を刺激し、より信頼性が高く効果的なアンラーニング手法が実現されることを願っています。
関連論文リスト
- Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Towards Robust Knowledge Unlearning: An Adversarial Framework for Assessing and Improving Unlearning Robustness in Large Language Models [19.015202590038996]
我々は、未学習モデルを攻撃する動的かつ自動化されたフレームワークであるDynamic Unlearning Attack (DUA)を設計する。
学習過程の堅牢性を効果的に向上する普遍的な枠組みであるLatent Adrial Unlearning (LAU)を提案する。
LAUは学習効率を53.5%以上改善し、近隣の知識の11.6%以下に減らし、モデルの一般的な能力にはほとんど影響を与えないことを示した。
論文 参考訳(メタデータ) (2024-08-20T09:36:04Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - UMat: Uncertainty-Aware Single Image High Resolution Material Capture [2.416160525187799]
本研究では, 物体の単一拡散像から正規性, 特異性, 粗さを復元する学習手法を提案する。
本手法は材料デジタル化における不確実性をモデル化する問題に最初に対処する手法である。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Learnware: Small Models Do Big [69.88234743773113]
自然言語処理やコンピュータビジョンの応用で目覚ましい成果を上げてきた、一般的なビッグモデルパラダイムは、これらの問題にまだ対応していないが、炭素排出量の深刻な源となっている。
この記事では、マシンラーニングモデルをスクラッチから構築する必要がないようにするための学習ソフトウェアパラダイムの概要を紹介します。
論文 参考訳(メタデータ) (2022-10-07T15:55:52Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。