論文の概要: DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability
- arxiv url: http://arxiv.org/abs/2308.09306v1
- Date: Fri, 18 Aug 2023 05:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 14:37:12.726329
- Title: DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability
- Title(参考訳): DiffDis: クロスモーダル識別機能を備えた生成拡散モデル
- Authors: Runhui Huang, Jianhua Han, Guansong Lu, Xiaodan Liang, Yihan Zeng, Wei
Zhang, Hang Xu
- Abstract要約: 本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 75.9781362556431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large-scale diffusion models, e.g., Stable diffusion and DallE2,
have shown remarkable results on image synthesis. On the other hand,
large-scale cross-modal pre-trained models (e.g., CLIP, ALIGN, and FILIP) are
competent for various downstream tasks by learning to align vision and language
embeddings. In this paper, we explore the possibility of jointly modeling
generation and discrimination. Specifically, we propose DiffDis to unify the
cross-modal generative and discriminative pretraining into one single framework
under the diffusion process. DiffDis first formulates the image-text
discriminative problem as a generative diffusion process of the text embedding
from the text encoder conditioned on the image. Then, we propose a novel
dual-stream network architecture, which fuses the noisy text embedding with the
knowledge of latent images from different scales for image-text discriminative
learning. Moreover, the generative and discriminative tasks can efficiently
share the image-branch network structure in the multi-modality model.
Benefiting from diffusion-based unified training, DiffDis achieves both better
generation ability and cross-modal semantic alignment in one architecture.
Experimental results show that DiffDis outperforms single-task models on both
the image generation and the image-text discriminative tasks, e.g., 1.65%
improvement on average accuracy of zero-shot classification over 12 datasets
and 2.42 improvement on FID of zero-shot image synthesis.
- Abstract(参考訳): 近年,安定拡散やdalle2などの大規模拡散モデルが画像合成において顕著な結果を示している。
一方、大規模クロスモーダル事前訓練モデル(CLIP、ALIGN、FILIPなど)は、視覚と言語埋め込みの整合を学習することで、様々な下流タスクに適している。
本稿では,生成と識別を共同でモデル化する可能性について検討する。
具体的には, 拡散過程下の1つのフレームワークに, クロスモーダル生成と判別前訓練を統合するdiffdisを提案する。
DiffDisはまず、画像上に条件付きテキストエンコーダから埋め込まれたテキストの生成拡散過程として画像テキスト識別問題を定式化する。
そこで本研究では,様々なスケールの潜在画像の知識と雑音の多いテキスト埋め込みを融合して画像識別学習を行う,新しいデュアルストリームネットワークアーキテクチャを提案する。
また、生成および判別タスクは、マルチモダリティモデルにおいて、画像分岐ネットワーク構造を効率的に共有することができる。
DiffDisは拡散ベースの統一トレーニングから恩恵を受け、一つのアーキテクチャでより良い生成能力と相互の意味的アライメントを達成する。
実験の結果、DiffDisは画像生成と画像テキスト識別の両タスクにおいて、ゼロショット分類の平均精度が1.65%向上し、ゼロショット画像合成のFIDが2.42改善された。
関連論文リスト
- Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。