論文の概要: Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment
for Markup-to-Image Generation
- arxiv url: http://arxiv.org/abs/2308.01147v1
- Date: Wed, 2 Aug 2023 13:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 12:51:48.672055
- Title: Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment
for Markup-to-Image Generation
- Title(参考訳): 細粒度配列アライメントを用いた造影剤拡散モデルによるマークアップ・ツー・イメージ生成
- Authors: Guojin Zhong, Jin Yuan, Pan Wang, Kailun Yang, Weili Guan, Zhiyong Li
- Abstract要約: 本稿では,FSA-CDM (Contrast-augmented Diffusion Model with Fine-fine Sequence Alignment) という新しいモデルを提案する。
FSA-CDMは、マークアップ・ツー・イメージ生成の性能を高めるために、対照的な正/負のサンプルを拡散モデルに導入する。
異なるドメインの4つのベンチマークデータセットで実験が行われる。
- 参考スコア(独自算出の注目度): 15.411325887412413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently rising markup-to-image generation poses greater challenges as
compared to natural image generation, due to its low tolerance for errors as
well as the complex sequence and context correlations between markup and
rendered image. This paper proposes a novel model named "Contrast-augmented
Diffusion Model with Fine-grained Sequence Alignment" (FSA-CDM), which
introduces contrastive positive/negative samples into the diffusion model to
boost performance for markup-to-image generation. Technically, we design a
fine-grained cross-modal alignment module to well explore the sequence
similarity between the two modalities for learning robust feature
representations. To improve the generalization ability, we propose a
contrast-augmented diffusion model to explicitly explore positive and negative
samples by maximizing a novel contrastive variational objective, which is
mathematically inferred to provide a tighter bound for the model's
optimization. Moreover, the context-aware cross attention module is developed
to capture the contextual information within markup language during the
denoising process, yielding better noise prediction results. Extensive
experiments are conducted on four benchmark datasets from different domains,
and the experimental results demonstrate the effectiveness of the proposed
components in FSA-CDM, significantly exceeding state-of-the-art performance by
about 2%-12% DTW improvements. The code will be released at
https://github.com/zgj77/FSACDM.
- Abstract(参考訳): 最近上昇しているマークアップから画像への生成は、エラーに対する耐性が低く、マークアップとレンダリング画像間の複雑なシーケンスとコンテキスト相関が原因で、自然画像生成に比べて大きな課題となっている。
本稿では,FSA-CDM(Contrast-augmented Diffusion Model with Fine-fine Sequence Alignment)と呼ばれる新しいモデルを提案する。
技術的には、ロバストな特徴表現を学習するための2つのモダリティ間のシーケンス類似性をよく探求するために、細粒なクロスモーダルアライメントモジュールを設計する。
一般化能力を向上させるために,モデル最適化の厳密なバウンダリを提供するために数学的に推定される新しいコントラスト的変動目標を最大化することにより,正および負のサンプルを明示的に探索するコントラスト拡張拡散モデルを提案する。
さらに、このコンテキスト対応クロスアテンションモジュールは、復調処理中にマークアップ言語内のコンテキスト情報をキャプチャし、より優れたノイズ予測結果を得る。
異なる領域の4つのベンチマークデータセットに対して大規模な実験を行い、実験結果はFSA-CDMにおける提案したコンポーネントの有効性を実証した。
コードはhttps://github.com/zgj77/FSACDMで公開される。
関連論文リスト
- Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Semantic Approach to Quantifying the Consistency of Diffusion Model Image Generation [0.40792653193642503]
拡散モデルにおける画像生成の再現性、あるいは一貫性の解釈可能な定量的スコアの必要性を同定する。
セマンティック・コンセンサス・スコアとしてペア平均CLIPスコアを用いるセマンティック・アプローチを提案する。
論文 参考訳(メタデータ) (2024-04-12T20:16:03Z) - Provably Robust Score-Based Diffusion Posterior Sampling for Plug-and-Play Image Reconstruction [31.503662384666274]
科学と工学において、ゴールは、ある画像のモダリティを記述する既知のフォワードモデルから収集された少数の測定値から未知の画像を推測することである。
モチベートされたスコアベース拡散モデルはその経験的成功により、画像再構成に先立って模範の印象的な候補として現れた。
論文 参考訳(メタデータ) (2024-03-25T15:58:26Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - SDDM: Score-Decomposed Diffusion Models on Manifolds for Unpaired
Image-to-Image Translation [96.11061713135385]
本研究は,画像生成時の絡み合った分布を明示的に最適化する,新しいスコア分解拡散モデルを提案する。
我々は、スコア関数の精製部分とエネルギー誘導を等しくし、多様体上の多目的最適化を可能にする。
SDDMは既存のSBDMベースの手法よりも優れており、I2Iベンチマークでは拡散ステップがはるかに少ない。
論文 参考訳(メタデータ) (2023-08-04T06:21:57Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。