Fugu-MT 論文翻訳(概要): Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion Models

論文の概要: Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2307.05977v1
Date: Wed, 12 Jul 2023 07:48:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-13 13:48:49.286460
Title: Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion Models
Title（参考訳）: インターネット規模テキスト・画像拡散モデルの安全な自己蒸留に向けて
Authors: Sanghyun Kim, Seohyeon Jung, Balhae Kim, Moonseok Choi, Jinwoo Shin, Juho Lee
Abstract要約: テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
参考スコア（独自算出の注目度）: 63.20512617502273
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale image generation models, with impressive quality made possible by the vast amount of data available on the Internet, raise social concerns that these models may generate harmful or copyrighted content. The biases and harmfulness arise throughout the entire training process and are hard to completely remove, which have become significant hurdles to the safe deployment of these models. In this paper, we propose a method called SDD to prevent problematic content generation in text-to-image diffusion models. We self-distill the diffusion model to guide the noise estimate conditioned on the target removal concept to match the unconditional one. Compared to the previous methods, our method eliminates a much greater proportion of harmful content from the generated images without degrading the overall image quality. Furthermore, our method allows the removal of multiple concepts at once, whereas previous works are limited to removing a single concept at a time.
Abstract（参考訳）: 大規模な画像生成モデルは、インターネット上で利用可能な膨大な量のデータによって可能になった印象的な品質を持ち、これらのモデルが有害または著作権のあるコンテンツを生成できるという社会的懸念を提起する。バイアスと有害性はトレーニングプロセス全体を通して発生し、完全に排除することは困難であり、これらのモデルの安全なデプロイには大きなハードルとなりました。本稿では,テキスト・画像拡散モデルにおける問題コンテンツ生成を防止するためのSDDという手法を提案する。拡散モデルを自己蒸留し, 目標除去概念に基づく騒音推定条件を非条件モデルと一致させるために導出する。従来の手法に比べ, 画像全体の画質を低下させることなく, 生成画像から有害なコンテンツの比率を大幅に削減できる。さらに,本手法では一度に複数の概念を除去できるが,従来の手法では一度に1つの概念を除去するしかなかった。

関連論文リスト

TRACE: Trajectory-Constrained Concept Erasure in Diffusion Models [0.0]
概念消去は、生成モデルにおいて特定の概念情報を削除または抑制することを目的としている。 Trajectory-Constrained Attentional Concept Erasure (TRACE) は拡散モデルから対象概念を消去する新しい手法である。 TRACEは最先端のパフォーマンスを実現し、ANT、EraseAnything、MACEといった最近の手法よりも、除去効率と出力品質の点で優れています。
論文参考訳（メタデータ） (2025-05-29T10:15:22Z)
Few-Shot Concept Unlearning with Low Rank Adaptation [0.0]
画像を生成する場合、これらのモデルは機密画像データを生成することができ、プライバシーを脅かしたり、プライベートエンティティの著作権法に違反する可能性がある。テキストエンコーダの最終層の勾配を更新することにより,拡散モデルにおける概念の影響を除去するアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-18T12:44:30Z)
TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [45.393001061726366]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文参考訳（メタデータ） (2025-03-10T14:37:53Z)
Continuous Concepts Removal in Text-to-image Diffusion Models [27.262721132177845]
著作権を侵害したり、乱暴な主題を描写するコンテンツを作成するためのテキスト・ツー・イメージモデルの可能性について懸念が高まっている。本稿では,知識蒸留パラダイムを設計したCCRTという新しい手法を提案する。一連のテキストプロンプトを使用することで、連続的な概念削除プロセス中のテキストイメージのアライメント動作を制限します。
論文参考訳（メタデータ） (2024-11-30T20:40:10Z)
Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文参考訳（メタデータ） (2024-11-30T04:37:38Z)
Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文参考訳（メタデータ） (2024-11-21T09:47:13Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。 MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文参考訳（メタデータ） (2024-07-17T08:04:28Z)
Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文参考訳（メタデータ） (2024-07-17T05:21:41Z)
Removing Undesirable Concepts in Text-to-Image Diffusion Models with Learnable Prompts [23.04942433104886]
本稿では,学習可能なプロンプトをモジュールに組み込むことにより,テキストから画像への拡散モデルから望ましくない概念を除去する手法を提案する。この学習可能なプロンプトは追加記憶として働き、望ましくない概念の知識を捉える。本研究では, 安定拡散モデルにおける本手法の有効性を実証し, 最先端消去法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-03-18T23:42:04Z)
All but One: Surgical Concept Erasing with Model Preservation in Text-to-Image Diffusion Models [22.60023885544265]
大規模なデータセットには、性的に明示的な、著作権のある、または望ましくないコンテンツが含まれており、モデルがそれらを直接生成することができる。拡散モデルにおける概念消去に取り組むために、ファインチューニングアルゴリズムが開発された。これらの課題をすべて解決する新しいアプローチを提示します。
論文参考訳（メタデータ） (2023-12-20T07:04:33Z)
Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文参考訳（メタデータ） (2023-03-23T17:59:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。