論文の概要: MagicFusion: Boosting Text-to-Image Generation Performance by Fusing
Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.13126v2
- Date: Sat, 25 Mar 2023 14:38:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 11:45:03.613744
- Title: MagicFusion: Boosting Text-to-Image Generation Performance by Fusing
Diffusion Models
- Title(参考訳): MagicFusion:拡散モデルによるテキスト・画像生成性能の向上
- Authors: Jing Zhao, Heliang Zheng, Chaoyue Wang, Long Lan, Wenjing Yang
- Abstract要約: 本研究では,より制御可能な生成を実現するために,融合したテキスト誘導拡散モデルを実現するためのSNB (Saliency-aware Noise Blending) という,シンプルで効果的な手法を提案する。
SNBはトレーニングフリーであり、DDIMサンプリングプロセス内で完成することができる。さらに、マスクなどの追加アノテーションを必要とせずに、2つのノイズ空間のセマンティクスを自動的に調整することができる。
- 参考スコア(独自算出の注目度): 20.62953292593076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of open-source AI communities has produced a cornucopia of
powerful text-guided diffusion models that are trained on various datasets.
While few explorations have been conducted on ensembling such models to combine
their strengths. In this work, we propose a simple yet effective method called
Saliency-aware Noise Blending (SNB) that can empower the fused text-guided
diffusion models to achieve more controllable generation. Specifically, we
experimentally find that the responses of classifier-free guidance are highly
related to the saliency of generated images. Thus we propose to trust different
models in their areas of expertise by blending the predicted noises of two
diffusion models in a saliency-aware manner. SNB is training-free and can be
completed within a DDIM sampling process. Additionally, it can automatically
align the semantics of two noise spaces without requiring additional
annotations such as masks. Extensive experiments show the impressive
effectiveness of SNB in various applications. Project page is available at
https://magicfusion.github.io/.
- Abstract(参考訳): オープンソースのAIコミュニティの出現は、さまざまなデータセットでトレーニングされた強力なテキスト誘導拡散モデルのコーンコピアを生み出した。
このようなモデルを組み合わすための調査は、ほとんど行われていない。
本研究では,より制御可能な生成を実現するために,融合したテキスト誘導拡散モデルを実現するためのSNB (Saliency-aware Noise Blending) を提案する。
具体的には,分類子なし誘導の応答が生成画像の正当性に強く関係していることが実験的に明らかになった。
そこで本研究では,2つの拡散モデルの予測ノイズを相応にブレンドすることで,それぞれの専門分野の異なるモデルを信頼することを提案する。
SNBはトレーニング不要であり、DDIMサンプリングプロセス内で完成することができる。
さらに、マスクなどの追加アノテーションを必要とせずに、2つのノイズ空間のセマンティクスを自動的に調整できる。
広範囲な実験により、SNBの様々な応用における印象的な効果が示された。
プロジェクトページはhttps://magicfusion.github.io/で閲覧できる。
関連論文リスト
- Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Phoenix: A Federated Generative Diffusion Model [6.09170287691728]
大規模な集中型データセットで生成モデルをトレーニングすることで、データのプライバシやセキュリティ、アクセシビリティといった面での課題が発生する可能性がある。
本稿では,フェデレートラーニング(FL)技術を用いて,複数のデータソースにまたがる拡散確率モデル(DDPM)の学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T01:43:09Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Are Diffusion Models Vision-And-Language Reasoners? [30.579483430697803]
我々は、DiffusionITMと呼ばれる新しい手法を用いて、任意の画像テキストマッチング(ITM)タスクに対する拡散ベースモデルを変換する。
GDBench(Generative-Discriminative Evaluation Benchmark)ベンチマークを7つの複雑な視覚・言語タスク、バイアス評価、詳細な分析で導入する。
安定拡散+拡散ITMは多くのタスクで競争力があり、CLIPよりもCLEVRやWinogroundのようなコンポジションタスクで優れています。
論文 参考訳(メタデータ) (2023-05-25T18:02:22Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z) - Enhanced Controllability of Diffusion Models via Feature Disentanglement and Realism-Enhanced Sampling Methods [27.014858633903867]
拡散モデル(FDiff)の特徴分散のためのトレーニングフレームワークを提案する。
本稿では,拡散モデルの現実性を高め,制御性を高める2つのサンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T07:43:00Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。