論文の概要: CycleNet: Rethinking Cycle Consistency in Text-Guided Diffusion for
Image Manipulation
- arxiv url: http://arxiv.org/abs/2310.13165v2
- Date: Sat, 9 Mar 2024 20:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:37:27.348378
- Title: CycleNet: Rethinking Cycle Consistency in Text-Guided Diffusion for
Image Manipulation
- Title(参考訳): CycleNet: 画像操作のためのテキストガイド拡散におけるサイクル一貫性の再考
- Authors: Sihan Xu, Ziqiao Ma, Yidong Huang, Honglak Lee, Joyce Chai
- Abstract要約: 拡散モデル(DM)は画像合成タスクのブレークスルーを実現するが、一貫したイメージ・ツー・イメージ(I2I)翻訳のための直感的なインタフェースは欠如している。
本稿では,画像操作を正規化するためのDMにサイクル一貫性を組み込んだ,新しくてシンプルな手法であるCyclenetを紹介する。
- 参考スコア(独自算出の注目度): 57.836686457542385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models (DMs) have enabled breakthroughs in image synthesis tasks
but lack an intuitive interface for consistent image-to-image (I2I)
translation. Various methods have been explored to address this issue,
including mask-based methods, attention-based methods, and image-conditioning.
However, it remains a critical challenge to enable unpaired I2I translation
with pre-trained DMs while maintaining satisfying consistency. This paper
introduces Cyclenet, a novel but simple method that incorporates cycle
consistency into DMs to regularize image manipulation. We validate Cyclenet on
unpaired I2I tasks of different granularities. Besides the scene and object
level translation, we additionally contribute a multi-domain I2I translation
dataset to study the physical state changes of objects. Our empirical studies
show that Cyclenet is superior in translation consistency and quality, and can
generate high-quality images for out-of-domain distributions with a simple
change of the textual prompt. Cyclenet is a practical framework, which is
robust even with very limited training data (around 2k) and requires minimal
computational resources (1 GPU) to train. Project homepage:
https://cyclenetweb.github.io/
- Abstract(参考訳): 拡散モデル(DM)は画像合成タスクのブレークスルーを実現するが、一貫したイメージ・ツー・イメージ(I2I)翻訳のための直感的なインタフェースは欠如している。
マスクベースの方法、注意に基づく方法、イメージコンディショニングなど、この問題に対処する様々な方法が研究されている。
しかし、未対応のi2i翻訳を事前訓練したdmで有効にすることは、一貫性を維持しつつも重要な課題である。
本稿では,dmsに周期一貫性を組み込んで画像操作を規則化する新しい手法であるcyclenetを提案する。
粒度の異なる非ペアi2iタスクでcyclenetを検証する。
シーンとオブジェクトレベルの変換に加えて、オブジェクトの物理的状態変化を研究するために、マルチドメインI2I翻訳データセットも提供します。
実験により、Cyclenetは翻訳の一貫性と品質に優れており、テキストプロンプトの簡単な変更で領域外分布の高品質な画像を生成することができることがわかった。
Cyclenetは、非常に限られたトレーニングデータ(約2k)でも堅牢で、トレーニングに最小の計算リソース(1GPU)を必要とする、実用的なフレームワークである。
プロジェクトホームページ: https://cyclenetweb.github.io/
関連論文リスト
- Lost in Translation: Modern Neural Networks Still Struggle With Small Realistic Image Transformations [8.248839892711478]
画像分類における顕著な性能を達成するディープニューラルネットワークは、小さな変換によって容易に騙される。
これらのアプローチは、カメラオリエンテーションの微妙な変化をシミュレートする「自然な」画像翻訳を頑健に扱う上で、依然として不十分であることを示す。
我々は、クロップ選択によるロバスト推論(Robust Inference)を、任意の所望の一貫性のレベルを達成することが証明できる単純な方法として提示する。
論文 参考訳(メタデータ) (2024-04-10T16:39:50Z) - Cross-Domain Image Conversion by CycleDM [6.7113569772720565]
本稿では,CycleGANの概念を拡散モデルに取り入れた,未ペア画像から画像への領域変換手法であるCycleDMを提案する。
CycleDMは2つの画像領域の復調過程をブリッジする2つの内部変換モデルを持つ。
変換画像を定量的に定性的に評価するための実験により,他の同等の手法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2024-03-05T12:35:55Z) - Multi-domain Unsupervised Image-to-Image Translation with Appearance
Adaptive Convolution [62.4972011636884]
本稿では,MDUIT(Multi-domain unsupervised image-to-image translation)フレームワークを提案する。
我々は、分解されたコンテンツ特徴と外観適応的畳み込みを利用して、画像をターゲットの外観に変換する。
提案手法は,最先端の手法と比較して,複数の領域で視覚的に多様かつ妥当な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-02-06T14:12:34Z) - Leveraging in-domain supervision for unsupervised image-to-image
translation tasks via multi-stream generators [4.726777092009554]
本稿では、翻訳品質の利点を活かすために、このドメイン内の貴重な事前知識を組み込むための2つの手法を紹介する。
本稿では,入力データをセマンティックマスクに従って分割し,画像の異なる領域の異なる動作にネットワークを明示的に導くことを提案する。
さらに,翻訳作業とともにセマンティックセグメンテーションネットワークを訓練し,この出力をロバスト性を向上させる損失項として活用することを提案する。
論文 参考訳(メタデータ) (2021-12-30T15:29:36Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - USIS: Unsupervised Semantic Image Synthesis [9.613134538472801]
セマンティック画像合成(USIS)のための新しい教師なしパラダイムを提案する。
USISは、自己教師付きセグメンテーションロスを使用して、視覚的に分離可能なセグメンテーションクラスで画像を出力することを学ぶ。
実画像の色とテクスチャの分布を高周波数情報を失うことなく一致させるため,ウェーブレットを用いた識別手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T20:48:41Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z) - Semi-supervised Learning for Few-shot Image-to-Image Translation [89.48165936436183]
本稿では,SEMITと呼ばれる画像翻訳のための半教師付き手法を提案する。
提案手法は,ソースラベルの10%以下を用いて,4つの異なるデータセットに対して優れた結果を得る。
論文 参考訳(メタデータ) (2020-03-30T22:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。