論文の概要: Sparse Repellency for Shielded Generation in Text-to-image Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.06025v2
- Date: Thu, 10 Oct 2024 17:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 11:30:40.506456
- Title: Sparse Repellency for Shielded Generation in Text-to-image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおけるシールド生成のためのスパース抵抗性
- Authors: Michael Kirchhof, James Thornton, Pierre Ablin, Louis Béthune, Eugene Ndiaye, Marco Cuturi,
- Abstract要約: 本稿では,事前学習した拡散モデルのサンプル軌跡を,参照集合外に落下する画像上に着陸させる手法を提案する。
生成軌道全体にわたって拡散SDEに反発項を追加することでこれを実現できる。
一般的な拡散モデルにSPELLを追加することで、FIDにわずかに影響を与えながら多様性が向上し、最近のトレーニングフリーの多様性手法よりも比較的優れた性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 29.083402085790016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increased adoption of diffusion models in text-to-image generation has triggered concerns on their reliability. Such models are now closely scrutinized under the lens of various metrics, notably calibration, fairness, or compute efficiency. We focus in this work on two issues that arise when deploying these models: a lack of diversity when prompting images, and a tendency to recreate images from the training set. To solve both problems, we propose a method that coaxes the sampled trajectories of pretrained diffusion models to land on images that fall outside of a reference set. We achieve this by adding repellency terms to the diffusion SDE throughout the generation trajectory, which are triggered whenever the path is expected to land too closely to an image in the shielded reference set. Our method is sparse in the sense that these repellency terms are zero and inactive most of the time, and even more so towards the end of the generation trajectory. Our method, named SPELL for sparse repellency, can be used either with a static reference set that contains protected images, or dynamically, by updating the set at each timestep with the expected images concurrently generated within a batch. We show that adding SPELL to popular diffusion models improves their diversity while impacting their FID only marginally, and performs comparatively better than other recent training-free diversity methods. We also demonstrate how SPELL can ensure a shielded generation away from a very large set of protected images by considering all 1.2M images from ImageNet as the protected set.
- Abstract(参考訳): テキスト・画像生成における拡散モデルの採用の増加は、その信頼性への懸念を引き起こしている。
このようなモデルは現在、キャリブレーション、公正性、計算効率など、様々なメトリクスのレンズの下で綿密に精査されている。
この研究は、これらのモデルをデプロイする際に生じる2つの問題、すなわち、画像のプロンプト時の多様性の欠如、トレーニングセットからイメージを再現する傾向、に焦点を当てている。
両問題を解決するために,事前学習した拡散モデルのサンプル軌跡を基準セット外にある画像に着陸させる手法を提案する。
我々は、生成軌道全体を通して拡散SDEに反発項を加えることでこれを実現する。これは、経路がシールドされた参照集合内の画像に近づきすぎると予測されるときにトリガーされる。
我々の手法は、これらの反発項が大抵の場合ゼロであり、不活性であり、さらに世代軌道の終端に向かっているという意味では疎い。
スパース・リペランシーのためのSPELLという名前の手法は,保護された画像を含む静的参照セット,あるいはバッチ内で同時に生成される期待画像で各タイムステップのセットを更新することにより動的に使用することができる。
一般的な拡散モデルにSPELLを追加することで、FIDにわずかに影響を与えながら多様性が向上し、最近のトレーニングフリーの多様性手法よりも比較的優れた性能を発揮することを示す。
また,イメージネットから1.2Mの画像をすべて保護セットとして考慮し,SPELLが保護された画像から保護された画像の集合から保護された世代を分離する方法を実証する。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling [6.7206291284535125]
大規模言語モデル(LLM)と拡散モデル(DM)を利用した効果的なデータ拡張フレームワークを提案する。
提案手法は,合成画像の多様性を増大させる問題に対処する。
本手法は, 目標分布の付着性を維持しつつ, 多様性を向上した合成画像を生成する。
論文 参考訳(メタデータ) (2024-09-25T14:02:43Z) - DDAP: Dual-Domain Anti-Personalization against Text-to-Image Diffusion Models [18.938687631109925]
拡散に基づくパーソナライズされたビジュアルコンテンツ生成技術は、大きなブレークスルーを達成した。
しかし、偽のニュースや個人をターゲットとするコンテンツを作るのに誤用された場合、これらの技術は社会的な危害をもたらす可能性がある。
本稿では,新しいDual-Domain Anti-Personalization framework(DDAP)を紹介する。
これら2つの手法を交互に組み合わせることで、DDAPフレームワークを構築し、両方のドメインの強みを効果的に活用する。
論文 参考訳(メタデータ) (2024-07-29T16:11:21Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - ADIR: Adaptive Diffusion for Image Reconstruction [46.838084286784195]
本研究では,拡散モデルによる事前学習を利用した条件付きサンプリング手法を提案する。
次に、事前学習した拡散分極ネットワークを入力に適応させる新しいアプローチと組み合わせる。
画像再構成手法の適応拡散は,超高解像度,デブロアリング,テキストベースの編集タスクにおいて,大幅な改善が達成されていることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:39:58Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Conffusion: Confidence Intervals for Diffusion Models [32.36217153362305]
現在の拡散法は、生成された結果に関する統計的保証を提供していない。
我々は,1つの前方通過における間隔境界を予測するために,事前学習した拡散モデルを微調整する融合法を提案する。
コンフュージョンは3桁の精度でベースライン法より優れていることを示す。
論文 参考訳(メタデータ) (2022-11-17T18:58:15Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。