論文の概要: Dual Diffusion Implicit Bridges for Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2203.08382v1
- Date: Wed, 16 Mar 2022 04:10:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 03:33:26.727776
- Title: Dual Diffusion Implicit Bridges for Image-to-Image Translation
- Title(参考訳): 画像間翻訳のための二重拡散インプリシットブリッジ
- Authors: Xuan Su, Jiaming Song, Chenlin Meng, Stefano Ermon
- Abstract要約: 画像と画像の共通翻訳法は、ソースドメインとターゲットドメインの両方のデータに対する共同トレーニングに依存している。
本稿では拡散モデルに基づく画像変換法であるDual Diffusion Implicit Bridges (DDIBs)を提案する。
DDIBは任意のソースターゲットドメイン間の変換を可能にし、それぞれのドメイン上で独立に訓練された拡散モデルを与える。
- 参考スコア(独自算出の注目度): 104.59371476415566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Common image-to-image translation methods rely on joint training over data
from both source and target domains. This excludes cases where domain data is
private (e.g., in a federated setting), and often means that a new model has to
be trained for a new pair of domains. We present Dual Diffusion Implicit
Bridges (DDIBs), an image translation method based on diffusion models, that
circumvents training on domain pairs. DDIBs allow translations between
arbitrary pairs of source-target domains, given independently trained diffusion
models on the respective domains. Image translation with DDIBs is a two-step
process: DDIBs first obtain latent encodings for source images with the source
diffusion model, and next decode such encodings using the target model to
construct target images. Moreover, DDIBs enable cycle-consistency by default
and is theoretically connected to optimal transport. Experimentally, we apply
DDIBs on a variety of synthetic and high-resolution image datasets,
demonstrating their utility in example-guided color transfer, image-to-image
translation as well as their connections to optimal transport methods.
- Abstract(参考訳): 画像と画像の共通翻訳法は、ソースドメインとターゲットドメインの両方のデータに対する共同トレーニングに依存している。
これは、ドメインデータがプライベートである場合(例えば、フェデレートされた設定)を除外し、しばしば新しいモデルを新しいドメインのためにトレーニングする必要があることを意味する。
本稿では,拡散モデルに基づく画像翻訳手法であるDual Diffusion Implicit Bridges (DDIBs)を提案する。
DDIBは任意のソースターゲットドメイン間の変換を可能にし、それぞれのドメイン上で独立に訓練された拡散モデルを与える。
ddibsはまずソース拡散モデルを用いてソースイメージの潜在エンコーディングを取得し、次にターゲットモデルを用いてそのエンコーディングをデコードしてターゲットイメージを構築する。
さらに、DDIBはサイクル一貫性をデフォルトで実現し、理論的には最適な輸送に結びついている。
実験では,ddibを様々な合成・高分解能画像データセットに適用し,サンプルガイドカラー転送,画像から画像への変換,および最適なトランスポート手法への接続においてその有用性を示す。
関連論文リスト
- I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP [30.506544165999564]
ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。
我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:44:50Z) - Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model [101.65105730838346]
離散的かつ連続的なデータに対してマルチモーダルモデルをトレーニングするためのレシピであるTransfusionを紹介する。
我々はテキストと画像の混合データに基づいて,テキストから最大7Bパラメータまでの複数のTransfusionモデルを事前訓練する。
実験の結果,Transfusionは画像の定量化や個別画像トークンによる言語モデルの訓練よりも,はるかに優れたスケールを実現していることがわかった。
論文 参考訳(メタデータ) (2024-08-20T17:48:20Z) - Frequency-Controlled Diffusion Model for Versatile Text-Guided Image-to-Image Translation [17.30877810859863]
大規模テキスト・ツー・イメージ拡散モデル(T2I)は画像・画像翻訳(I2I)の強力なツールとして登場した。
本稿では,周波数制御拡散モデル(FCDiffusion)を提案する。
論文 参考訳(メタデータ) (2024-07-03T11:05:19Z) - Rethinking Score Distillation as a Bridge Between Image Distributions [97.27476302077545]
提案手法は, 劣化した画像(ソース)を自然画像分布(ターゲット)に転送することを目的としている。
本手法は,複数の領域にまたがって容易に適用可能であり,特殊な手法の性能のマッチングや評価を行うことができる。
テキストから2D、テキストベースのNeRF最適化、絵画を実画像に変換すること、光学錯視生成、および3Dスケッチから実画像に変換することにおいて、その実用性を実証する。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Source-Free Domain Adaptation with Diffusion-Guided Source Data Generation [6.087274577167399]
本稿では、ソースフリードメイン適応(DM-SFDA)のための拡散モデルの一般化可能性を活用する新しいアプローチを提案する。
提案するDMSFDA法では,事前学習したテキスト・画像拡散モデルを微調整し,ソース・ドメイン・イメージを生成する。
私たちは、Office-31、Office-Home、VisDAなど、さまざまなデータセットにわたる包括的な実験を通じて、このアプローチを検証する。
論文 参考訳(メタデータ) (2024-02-07T14:56:13Z) - BBDM: Image-to-image Translation with Brownian Bridge Diffusion Models [50.39417112077254]
BBDM(Brownian Bridge Diffusion Model)に基づく画像から画像への変換手法を提案する。
我々の知る限りでは、画像から画像への変換のためのブラウン橋拡散プロセスを提案する最初の作品である。
論文 参考訳(メタデータ) (2022-05-16T13:47:02Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。