論文の概要: Zippo: Zipping Color and Transparency Distributions into a Single Diffusion Model
- arxiv url: http://arxiv.org/abs/2403.11077v1
- Date: Sun, 17 Mar 2024 04:02:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 20:17:05.954607
- Title: Zippo: Zipping Color and Transparency Distributions into a Single Diffusion Model
- Title(参考訳): Zippo: 色と透明性の分布を単一拡散モデルに変換する
- Authors: Kangyang Xie, Binbin Yang, Hao Chen, Meng Wang, Cheng Zou, Hui Xue, Ming Yang, Chunhua Shen,
- Abstract要約: 色と透明性の分布を単一の拡散モデルに分解する統合フレームワークZippoを提案する。
ZippoはアルファマットからRGBイメージを生成し、入力イメージから透過性を予測できる。
実験では,Zippoのテキスト条件の透過的な画像生成能力について紹介した。
- 参考スコア(独自算出の注目度): 56.84435912555532
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Beyond the superiority of the text-to-image diffusion model in generating high-quality images, recent studies have attempted to uncover its potential for adapting the learned semantic knowledge to visual perception tasks. In this work, instead of translating a generative diffusion model into a visual perception model, we explore to retain the generative ability with the perceptive adaptation. To accomplish this, we present Zippo, a unified framework for zipping the color and transparency distributions into a single diffusion model by expanding the diffusion latent into a joint representation of RGB images and alpha mattes. By alternatively selecting one modality as the condition and then applying the diffusion process to the counterpart modality, Zippo is capable of generating RGB images from alpha mattes and predicting transparency from input images. In addition to single-modality prediction, we propose a modality-aware noise reassignment strategy to further empower Zippo with jointly generating RGB images and its corresponding alpha mattes under the text guidance. Our experiments showcase Zippo's ability of efficient text-conditioned transparent image generation and present plausible results of Matte-to-RGB and RGB-to-Matte translation.
- Abstract(参考訳): 高品質な画像生成におけるテキスト・画像拡散モデルの優位性以外にも、近年の研究では、学習した意味知識を視覚的知覚タスクに適用する可能性を明らかにする試みが行われている。
本研究では,生成的拡散モデルから視覚知覚モデルへ変換する代わりに,知覚的適応による生成能力の維持について検討する。
そこで本研究では,RGB画像とアルファマットの結合表現に拡散遅延を拡大することにより,色と透過性の分布を単一拡散モデルに分解する統合フレームワークZippoを提案する。
代わりに条件として1つのモダリティを選択し、それに対応するモダリティに拡散プロセスを適用することにより、ZippoはアルファマットからRGB画像を生成し、入力画像から透明性を予測することができる。
単モーダリティ予測に加えて,テキスト指導の下で共同生成されたRGB画像とその対応するアルファマットを用いてZippoをさらに強化するモーダリティ対応ノイズ再割り当て戦略を提案する。
実験では,Zippoのテキスト条件の透過的な画像生成能力と,Matte-to-RGBおよびRGB-to-Matte翻訳の有意な結果を示す。
関連論文リスト
- Retinex-Diffusion: On Controlling Illumination Conditions in Diffusion Models via Retinex Theory [19.205929427075965]
我々は,拡散モデルをブラックボックス画像レンダリングとして概念化し,そのエネルギー関数を画像形成モデルに沿って戦略的に分解する。
これは、キャストシャドウ、ソフトシャドウ、反射間など、現実的な照明効果を持つ画像を生成する。
論文 参考訳(メタデータ) (2024-07-29T03:15:07Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Transparent Image Layer Diffusion using Latent Transparency [30.77316047044662]
本稿では,大規模な事前学習型潜伏拡散モデルを用いて透過的な画像を生成する手法であるLayerDiffuseを提案する。
この手法は,アルファチャネル透過性を事前学習した潜伏拡散モデルの潜伏多様体に符号化する「潜伏透過性」を学習する。
これは、付加された透明性を潜在オフセットとして調節することにより、大きな拡散モデルの生産可能な品質を保っている。
論文 参考訳(メタデータ) (2024-02-27T01:19:53Z) - JoReS-Diff: Joint Retinex and Semantic Priors in Diffusion Model for Low-light Image Enhancement [69.6035373784027]
低照度画像強調(LLIE)は条件付き拡散モデルを用いて有望な性能を実現している。
従来手法は、タスク固有の条件戦略の十分な定式化の重要性を無視するものであった。
本稿では,Retinex および semantic-based pre-processing condition を付加した新しいアプローチである JoReS-Diff を提案する。
論文 参考訳(メタデータ) (2023-12-20T08:05:57Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Improved Diffusion-based Image Colorization via Piggybacked Models [19.807766482434563]
既存の強力なT2I拡散モデルに基づく色付けモデルを提案する。
拡散誘導器は、潜伏拡散モデルの事前訓練された重みを組み込むように設計されている。
次に、輝度認識VQVAEは、所定のグレースケール画像に画素完全アライメントされた色付き結果を生成する。
論文 参考訳(メタデータ) (2023-04-21T16:23:24Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - Controlled and Conditional Text to Image Generation with Diffusion Prior [1.8690858882873838]
DALLE-2の2ステッププロセスは、テキストからCLIPイメージの埋め込みを生成するDiffusion Priorと、CLIPイメージの埋め込みから画像を生成するDiffusion Decoderで構成される。
提案手法は,カラー条件付き生成のための領域固有生成と既存のベースラインの迅速なエンジニアリングよりも,定量的かつ質的に優れていることを示す。
論文 参考訳(メタデータ) (2023-02-23T00:10:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。