論文の概要: A Diffusion-based Method for Multi-turn Compositional Image Generation
- arxiv url: http://arxiv.org/abs/2304.02192v1
- Date: Wed, 5 Apr 2023 02:13:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 13:36:58.492758
- Title: A Diffusion-based Method for Multi-turn Compositional Image Generation
- Title(参考訳): 拡散に基づく多ターン合成画像生成法
- Authors: Chao Wang, Xiaoyu Yang, Jinmiao Huang, Kevin Ferreira
- Abstract要約: 画像合成マッチング(CDD-ICM)を用いたM-CIGの拡散に基づく条件付き拡散法を提案する。
画像とテキストエンコーダのバックボーンとしてCLIPを活用し,質問応答のために提案されたゲート融合機構を組み込んだ。
我々は,CDD-ICMがM-CIG,すなわちCoDrawとi-CLEVRの2つのベンチマークデータセットに対して最先端の結果を得ることを示す。
- 参考スコア(独自算出の注目度): 4.572985496483577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn compositional image generation (M-CIG) is a challenging task that
aims to iteratively manipulate a reference image given a modification text.
While most of the existing methods for M-CIG are based on generative
adversarial networks (GANs), recent advances in image generation have
demonstrated the superiority of diffusion models over GANs. In this paper, we
propose a diffusion-based method for M-CIG named conditional denoising
diffusion with image compositional matching (CDD-ICM). We leverage CLIP as the
backbone of image and text encoders, and incorporate a gated fusion mechanism,
originally proposed for question answering, to compositionally fuse the
reference image and the modification text at each turn of M-CIG. We introduce a
conditioning scheme to generate the target image based on the fusion results.
To prioritize the semantic quality of the generated target image, we learn an
auxiliary image compositional match (ICM) objective, along with the conditional
denoising diffusion (CDD) objective in a multi-task learning framework.
Additionally, we also perform ICM guidance and classifier-free guidance to
improve performance. Experimental results show that CDD-ICM achieves
state-of-the-art results on two benchmark datasets for M-CIG, i.e., CoDraw and
i-CLEVR.
- Abstract(参考訳): マルチターン合成画像生成(M-CIG)は、修正テキストが与えられた参照画像を反復的に操作することを目的とした課題である。
M-CIGの既存の手法のほとんどはGAN(Generative Adversarial Network)に基づいているが、画像生成の最近の進歩は、GANよりも拡散モデルの方が優れていることを示している。
本稿では,画像合成マッチング(CDD-ICM)を用いたM-CIGの拡散に基づく条件付き拡散法を提案する。
画像とテキストエンコーダのバックボーンとしてCLIPを活用し,元来質問応答のためのゲート融合機構を導入し,M-CIGの各ターンで参照画像と修正テキストを合成的に融合させる。
融合結果に基づいて目標画像を生成する条件付きスキームを導入する。
生成した対象画像の意味的品質を優先するために、マルチタスク学習フレームワークにおいて、条件付き雑音拡散(cdd)目標と共に、補助画像合成マッチング(icm)目標を学習する。
また、性能向上のため、ICMガイダンスや分類器フリーガイダンスも実施する。
実験の結果,CDD-ICMはM-CIG,すなわちCoDrawとi-CLEVRの2つのベンチマークデータセットに対して,最先端の結果が得られることがわかった。
関連論文リスト
- DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling [6.7206291284535125]
大規模言語モデル(LLM)と拡散モデル(DM)を利用した効果的なデータ拡張フレームワークを提案する。
提案手法は,合成画像の多様性を増大させる問題に対処する。
本手法は, 目標分布の付着性を維持しつつ, 多様性を向上した合成画像を生成する。
論文 参考訳(メタデータ) (2024-09-25T14:02:43Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - LT-GAN: Self-Supervised GAN with Latent Transformation Detection [10.405721171353195]
画像の生成品質と多様性を改善するための自己教師付きアプローチ(LT-GAN)を提案する。
我々は,提案するLT-GANが,他の最先端のトレーニング技術と効果的に組み合わせて,付加的なメリットを享受できることを実験的に実証した。
論文 参考訳(メタデータ) (2020-10-19T22:09:45Z) - Multimodal Image-to-Image Translation via Mutual Information Estimation
and Maximization [16.54980086211836]
マルチモーダル画像画像変換 (Multimodal image-to-image translation, I2IT) は、ソース領域の入力画像が与えられた対象領域内の複数の可能な画像を探索する条件分布を学習することを目的としている。
このような条件分布をモデル化するために、条件生成逆ネットワーク(cGAN)がよく用いられる。
本稿では,cGANにおける潜在コードと出力画像間の相互情報を明示的に推定し,最大化する手法を提案する。
論文 参考訳(メタデータ) (2020-08-08T14:09:23Z) - Kullback-Leibler Divergence-Based Fuzzy $C$-Means Clustering
Incorporating Morphological Reconstruction and Wavelet Frames for Image
Segmentation [152.609322951917]
そこで我々は,厳密なウェーブレットフレーム変換と形態的再構成操作を組み込むことで,Kulback-Leibler (KL) 発散に基づくFuzzy C-Means (FCM) アルゴリズムを考案した。
提案アルゴリズムはよく機能し、他の比較アルゴリズムよりもセグメンテーション性能が優れている。
論文 参考訳(メタデータ) (2020-02-21T05:19:10Z) - Toward a Controllable Disentanglement Network [22.968760397814993]
本稿では, 画像編集における歪みの程度を制御し, 歪み強度と復元品質のバランスをとることにより, 歪み画像表現を学習する2つの重要な問題に対処する。
ソフトターゲット表現の実際の値空間を探索することにより、指定された特性を持つ新規な画像を合成することができる。
論文 参考訳(メタデータ) (2020-01-22T16:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。