論文の概要: VQBB: Image-to-image Translation with Vector Quantized Brownian Bridge
- arxiv url: http://arxiv.org/abs/2205.07680v1
- Date: Mon, 16 May 2022 13:47:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 17:34:25.768230
- Title: VQBB: Image-to-image Translation with Vector Quantized Brownian Bridge
- Title(参考訳): VQBB:ベクトル量子化ブラウン橋による画像から画像への変換
- Authors: Bo Li, Kaitao Xue, Bin Liu, Yu-Kun Lai
- Abstract要約: 本稿では,新しいベクトル量子化ブラウン橋(VQBB)拡散モデルを提案する。
ブラウン橋拡散過程は、既存のマルコフ拡散法よりも正確で柔軟な2つの領域間の変換をモデル化することができる。
提案手法は,量子化潜在空間における拡散過程を収束させることにより,学習効率と翻訳精度を向上させる。
- 参考スコア(独自算出の注目度): 50.39417112077254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-image translation is an important and challenging problem in
computer vision. Existing approaches like Pixel2Pixel, DualGAN suffer from the
instability of GAN and fail to generate diverse outputs because they model the
task as a one-to-one mapping. Although diffusion models can generate images
with high quality and diversity, current conditional diffusion models still can
not maintain high similarity with the condition image on image-to-image
translation tasks due to the Gaussian noise added in the reverse process. To
address these issues, a novel Vector Quantized Brownian Bridge(VQBB) diffusion
model is proposed in this paper. On one hand, Brownian Bridge diffusion process
can model the transformation between two domains more accurate and flexible
than the existing Markov diffusion methods. As far as the authors know, it is
the first work for Brownian Bridge diffusion process proposed for
image-to-image translation. On the other hand, the proposed method improved the
learning efficiency and translation accuracy by confining the diffusion process
in the quantized latent space. Finally, numerical experimental results
validated the performance of the proposed method.
- Abstract(参考訳): 画像から画像への翻訳はコンピュータビジョンにおいて重要かつ困難な問題である。
Pixel2Pixelのような既存のアプローチでは、DualGANはGANの不安定さに悩まされており、タスクを1対1のマッピングとしてモデル化するため、多様な出力を生成することができない。
拡散モデルは高品質で多様な画像を生成することができるが、現在の条件拡散モデルは、逆処理で付加されるガウス雑音による画像間翻訳タスクの条件画像と高い類似性を維持することはできない。
この問題に対処するために,新しいベクトル量子化ブラウン橋(vqbb)拡散モデルが提案されている。
一方、ブラウン橋拡散過程は既存のマルコフ拡散法よりも正確で柔軟な2つの領域間の変換をモデル化することができる。
著者らが知る限り、画像から画像への変換のために提案されたブラウン橋の拡散過程の最初の作品である。
一方,提案手法は,量子化潜在空間における拡散過程を収束させることにより,学習効率と翻訳精度を向上させる。
最後に,提案手法の性能を数値実験により検証した。
関連論文リスト
- EBDM: Exemplar-guided Image Translation with Brownian-bridge Diffusion Models [42.55874233756394]
我々は,B Brownian-Bridge Diffusion Models (EBDM) を用いたExemplar-Guided Image Translation という新しい手法を提案する。
提案手法は, 所定の初期点を有する拡散過程を構造制御としてブラウンブリッジプロセスとして定式化し, 与えられた模範画像のみに条件付けしながら, 対応するフォトリアリスティック画像に変換する。
論文 参考訳(メタデータ) (2024-10-13T11:10:34Z) - Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model [101.65105730838346]
離散的かつ連続的なデータに対してマルチモーダルモデルをトレーニングするためのレシピであるTransfusionを紹介する。
我々はテキストと画像の混合データに基づいて,テキストから最大7Bパラメータまでの複数のTransfusionモデルを事前訓練する。
実験の結果,Transfusionは画像の定量化や個別画像トークンによる言語モデルの訓練よりも,はるかに優れたスケールを実現していることがわかった。
論文 参考訳(メタデータ) (2024-08-20T17:48:20Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Dual Diffusion Implicit Bridges for Image-to-Image Translation [104.59371476415566]
画像と画像の共通翻訳法は、ソースドメインとターゲットドメインの両方のデータに対する共同トレーニングに依存している。
本稿では拡散モデルに基づく画像変換法であるDual Diffusion Implicit Bridges (DDIBs)を提案する。
DDIBは任意のソースターゲットドメイン間の変換を可能にし、それぞれのドメイン上で独立に訓練された拡散モデルを与える。
論文 参考訳(メタデータ) (2022-03-16T04:10:45Z) - UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion
Probabilistic Models [19.499490172426427]
そこで本研究では, 拡散確率モデルを用いた非対比画像・画像変換手法を提案する。
拡散確率モデル(UNIT-DDPM)を用いたUnpaired Image Translation with Denoising Diffusion Probabilistic Models (UNT-DDPM) は,両領域の画像の共同分布をマルコフ鎖として推定する生成モデルを訓練する。
論文 参考訳(メタデータ) (2021-04-12T11:22:56Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。