論文の概要: DiffI2I: Efficient Diffusion Model for Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2308.13767v1
- Date: Sat, 26 Aug 2023 05:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 19:17:26.842445
- Title: DiffI2I: Efficient Diffusion Model for Image-to-Image Translation
- Title(参考訳): DiffI2I:画像間翻訳のための効率的な拡散モデル
- Authors: Bin Xia, Yulun Zhang, Shiyin Wang, Yitong Wang, Xinglong Wu, Yapeng
Tian, Wenming Yang, Radu Timotfe, Luc Van Gool
- Abstract要約: 画像合成のためのSOTAアプローチとして拡散モデル (DM) が登場した。
DMは画像から画像への変換(I2I)タスクではうまく機能しない。
DiffI2Iは、コンパクトI2I事前抽出ネットワーク(CPEN)、動的I2Iトランス(DI2Iformer)、デノイングネットワーク(denoising network)の3つのキーコンポーネントから構成される。
- 参考スコア(独自算出の注目度): 108.82579440308267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Diffusion Model (DM) has emerged as the SOTA approach for image
synthesis. However, the existing DM cannot perform well on some image-to-image
translation (I2I) tasks. Different from image synthesis, some I2I tasks, such
as super-resolution, require generating results in accordance with GT images.
Traditional DMs for image synthesis require extensive iterations and large
denoising models to estimate entire images, which gives their strong generative
ability but also leads to artifacts and inefficiency for I2I. To tackle this
challenge, we propose a simple, efficient, and powerful DM framework for I2I,
called DiffI2I. Specifically, DiffI2I comprises three key components: a compact
I2I prior extraction network (CPEN), a dynamic I2I transformer (DI2Iformer),
and a denoising network. We train DiffI2I in two stages: pretraining and DM
training. For pretraining, GT and input images are fed into CPEN$_{S1}$ to
capture a compact I2I prior representation (IPR) guiding DI2Iformer. In the
second stage, the DM is trained to only use the input images to estimate the
same IRP as CPEN$_{S1}$. Compared to traditional DMs, the compact IPR enables
DiffI2I to obtain more accurate outcomes and employ a lighter denoising network
and fewer iterations. Through extensive experiments on various I2I tasks, we
demonstrate that DiffI2I achieves SOTA performance while significantly reducing
computational burdens.
- Abstract(参考訳): 拡散モデル (dm) は画像合成のための sota アプローチとして登場した。
しかし、既存のDMは画像間翻訳(I2I)タスクではうまく機能しない。
画像合成と異なり、超解像度などのI2Iタスクでは、GT画像に応じて結果を生成する必要がある。
画像合成のための従来のDMは、画像全体を推定するために広範囲の反復と大規模なデノナイジングモデルを必要とするため、生成能力は高いが、I2Iのアーティファクトや非効率につながる。
この課題に対処するため、我々はDiffI2Iと呼ばれるI2Iのためのシンプルで効率的で強力なDMフレームワークを提案する。
具体的には、diffi2iは、コンパクトi2i事前抽出ネットワーク(cpen)、ダイナミックi2i変換器(di2iformer)、デノージングネットワークの3つのキーコンポーネントからなる。
我々はDiffI2Iを事前訓練とDMトレーニングの2段階で訓練する。
事前トレーニングのために、GTと入力画像はCPEN$_{S1}$に入力され、コンパクトなI2I事前表現(IPR)がDI2Iformerを導く。
第2段階では、dmは入力画像のみを使用してcpen$_{s1}$と同じirpを推定するように訓練される。
従来のDMと比較して、コンパクトなIPRにより、DiffI2Iはより正確な結果を得ることができ、より軽量な denoising ネットワークとより少ないイテレーションを使用することができる。
diffi2i は様々な i2i タスクを広範囲に実験し,計算負荷を大幅に削減しながら sota 性能を実現する。
関連論文リスト
- MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Composed Image Retrieval (CIR) は、ターゲット画像の検索にバイモーダル(image+text)クエリを利用する、難しい視覚言語タスクである。
本稿では,両者の相違に対処するための2段階の枠組みを提案する。
MoTaDualは、トレーニング時間と計算コストを低く保ちながら、4つの広く使用されているZS-CIRベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-31T08:49:05Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - STEREOFOG -- Computational DeFogging via Image-to-Image Translation on a
real-world Dataset [0.8702432681310401]
画像から画像への変換(I2I)は機械学習(ML)のサブタイプであり、アプリケーションに非常に大きな可能性を秘めている。
sterEOFOGは10,067ドル(約10,067円)のぼかしと鮮明な画像からなるデータセットである。
pix2pix I2I MLフレームワークをこのデータセットに適用し、最適化する。
論文 参考訳(メタデータ) (2023-12-04T21:07:13Z) - CycleNet: Rethinking Cycle Consistency in Text-Guided Diffusion for
Image Manipulation [57.836686457542385]
拡散モデル(DM)は画像合成タスクのブレークスルーを実現するが、一貫したイメージ・ツー・イメージ(I2I)翻訳のための直感的なインタフェースは欠如している。
本稿では,画像操作を正規化するためのDMにサイクル一貫性を組み込んだ,新しくてシンプルな手法であるCyclenetを紹介する。
論文 参考訳(メタデータ) (2023-10-19T21:32:21Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - E2TIMT: Efficient and Effective Modal Adapter for Text Image Machine
Translation [40.62692548291319]
テキスト画像機械翻訳(TIMT)は、画像に埋め込まれたテキストを、あるソース言語から別のターゲット言語に翻訳することを目的としている。
既存の手法では、2段階のカスケードと1段階のエンドツーエンドアーキテクチャの両方が異なる問題に悩まされている。
本稿では,既存のOCRおよびMTデータセットからの知識をフル活用したエンドツーエンドTIMTモデルを提案する。
論文 参考訳(メタデータ) (2023-05-09T04:25:52Z) - UVCGAN v2: An Improved Cycle-Consistent GAN for Unpaired Image-to-Image
Translation [10.689788782893096]
I2I (unpaired image-to-image) 翻訳技術は、完全に教師なしの方法で2つのデータ領域間のマッピングを求める。
DMはFrechet distance(FID)の観点からI2I翻訳ベンチマークの最先端を保っている
この研究は、最近のUVCGANモデルを改善し、モデルアーキテクチャとトレーニング手順の近代化に資する。
論文 参考訳(メタデータ) (2023-03-28T19:46:34Z) - DiffIR: Efficient Diffusion Model for Image Restoration [108.82579440308267]
拡散モデル(DM)は、画像合成過程をデノナイジングネットワークのシーケンシャルな応用にモデル化することで、SOTA性能を達成した。
画像全体や特徴マップを推定する大規模なモデルで大規模なイテレーションを実行する従来のDMは、画像復元には非効率である。
本稿では、小型IR先行抽出ネットワーク(CPEN)、ダイナミックIR変換器(DIRformer)、デノナイズネットワーク(Denoising Network)からなるDiffIRを提案する。
論文 参考訳(メタデータ) (2023-03-16T16:47:14Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。