論文の概要: A Diffusion Model Translator for Efficient Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2502.00307v1
- Date: Sat, 01 Feb 2025 04:01:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:51.465311
- Title: A Diffusion Model Translator for Efficient Image-to-Image Translation
- Title(参考訳): 効率的な画像間翻訳のための拡散モデル変換器
- Authors: Mengfei Xia, Yu Zhou, Ran Yi, Yong-Jin Liu, Wenping Wang,
- Abstract要約: 本稿では,拡散モデルトランスレータ (DMT) と呼ばれる,軽量トランスレータを用いた拡散モデルを効率よく実装する手法を提案する。
我々は、画像スタイリング、画像のカラー化、画像へのセグメント化、画像へのスケッチなど、さまざまなI2Iアプリケーションに対するアプローチを評価し、その有効性と汎用性を検証した。
- 参考スコア(独自算出の注目度): 60.86381807306705
- License:
- Abstract: Applying diffusion models to image-to-image translation (I2I) has recently received increasing attention due to its practical applications. Previous attempts inject information from the source image into each denoising step for an iterative refinement, thus resulting in a time-consuming implementation. We propose an efficient method that equips a diffusion model with a lightweight translator, dubbed a Diffusion Model Translator (DMT), to accomplish I2I. Specifically, we first offer theoretical justification that in employing the pioneering DDPM work for the I2I task, it is both feasible and sufficient to transfer the distribution from one domain to another only at some intermediate step. We further observe that the translation performance highly depends on the chosen timestep for domain transfer, and therefore propose a practical strategy to automatically select an appropriate timestep for a given task. We evaluate our approach on a range of I2I applications, including image stylization, image colorization, segmentation to image, and sketch to image, to validate its efficacy and general utility. The comparisons show that our DMT surpasses existing methods in both quality and efficiency. Code will be made publicly available.
- Abstract(参考訳): イメージ・ツー・イメージ翻訳(I2I)への拡散モデルの適用は,その実用性から近年注目されている。
以前の試みは、反復的な改善のために、ソースイメージから各デノイングステップに情報を注入し、結果として時間を要する実装となった。
本稿では,拡散モデルトランスレータ (DMT) と呼ばれる軽量トランスレータを用いた拡散モデルを効率よく実装し,I2Iを実現する手法を提案する。
具体的には、I2I タスクに先駆的な DDPM 処理を用いることで、ある中間段階においてのみ、ある領域から別の領域へ分布を転送することは可能かつ十分である、という理論的正当性を提供する。
さらに、翻訳性能がドメイン転送の時間ステップに大きく依存していることが観察され、与えられたタスクの適切な時間ステップを自動的に選択するための実践的戦略が提案される。
我々は、画像スタイリング、画像のカラー化、画像へのセグメント化、画像へのスケッチなど、さまざまなI2Iアプリケーションに対するアプローチを評価し、その有効性と汎用性を検証した。
比較の結果、DMTは既存の手法を上回り、品質と効率の両面で上回っていることがわかった。
コードは公開されます。
関連論文リスト
- I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP [30.506544165999564]
ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。
我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:44:50Z) - Regularized Distribution Matching Distillation for One-step Unpaired Image-to-Image Translation [1.8434042562191815]
未ペア画像対画像(I2I)問題に適用可能な正規分布マッチング蒸留法を提案する。
画像データセット間の2次元例とI2Iを含む複数の翻訳タスクに適用した経験的性能を示す。
論文 参考訳(メタデータ) (2024-06-20T22:22:31Z) - Rethinking Score Distillation as a Bridge Between Image Distributions [97.27476302077545]
提案手法は, 劣化した画像(ソース)を自然画像分布(ターゲット)に転送することを目的としている。
本手法は,複数の領域にまたがって容易に適用可能であり,特殊な手法の性能のマッチングや評価を行うことができる。
テキストから2D、テキストベースのNeRF最適化、絵画を実画像に変換すること、光学錯視生成、および3Dスケッチから実画像に変換することにおいて、その実用性を実証する。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Wuerstchen: An Efficient Architecture for Large-Scale Text-to-Image
Diffusion Models [6.821399706256863]
W"urstchen"は、競争性能と前例のない費用対効果を組み合わせたテキスト対画像合成の新しいアーキテクチャである。
我々の研究の重要な貢献は、詳細だが非常にコンパクトなセマンティックイメージ表現を学習する潜伏拡散技術を開発することである。
論文 参考訳(メタデータ) (2023-06-01T13:00:53Z) - BBDM: Image-to-image Translation with Brownian Bridge Diffusion Models [50.39417112077254]
BBDM(Brownian Bridge Diffusion Model)に基づく画像から画像への変換手法を提案する。
我々の知る限りでは、画像から画像への変換のためのブラウン橋拡散プロセスを提案する最初の作品である。
論文 参考訳(メタデータ) (2022-05-16T13:47:02Z) - Dual Diffusion Implicit Bridges for Image-to-Image Translation [104.59371476415566]
画像と画像の共通翻訳法は、ソースドメインとターゲットドメインの両方のデータに対する共同トレーニングに依存している。
本稿では拡散モデルに基づく画像変換法であるDual Diffusion Implicit Bridges (DDIBs)を提案する。
DDIBは任意のソースターゲットドメイン間の変換を可能にし、それぞれのドメイン上で独立に訓練された拡散モデルを与える。
論文 参考訳(メタデータ) (2022-03-16T04:10:45Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。