論文の概要: Seed-to-Seed: Image Translation in Diffusion Seed Space
- arxiv url: http://arxiv.org/abs/2409.00654v1
- Date: Sun, 1 Sep 2024 08:07:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 13:09:07.834322
- Title: Seed-to-Seed: Image Translation in Diffusion Seed Space
- Title(参考訳): 種子対種子:拡散種子空間における画像翻訳
- Authors: Or Greenberg, Eran Kishon, Dani Lischinski,
- Abstract要約: 拡散モデル(DM)を用いた画像間翻訳の新しいアプローチであるシード・ツー・シード翻訳(StS)を導入する。
我々は,予め訓練されたDMの逆種子空間内でコード化されている意味情報を活用し,種空間と呼ぶ。
提案手法は,事前訓練されたDMのシード空間内に符号化された意味情報を有効画像編集・操作に利用するための新たな視点を提供する。
- 参考スコア(独自算出の注目度): 20.590890565046074
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Seed-to-Seed Translation (StS), a novel approach for Image-to-Image Translation using diffusion models (DMs), aimed at translations that require close adherence to the structure of the source image. In contrast to existing methods that modify images during the diffusion sampling process, we leverage the semantic information encoded within the space of inverted seeds of a pretrained DM, dubbed as the seed-space. We demonstrate that inverted seeds can be used for discriminative tasks, and can also be manipulated to achieve desired transformations in an unpaired image-to-image translation setting. Our method involves training an sts-GAN, an unpaired translation model between source and target seeds, based on CycleGAN. The final translated images are obtained by initiating the DM's sampling process from the translated seeds. A ControlNet is used to ensure the structural preservation of the input image. We demonstrate the effectiveness of our approach for the task of translating automotive scenes, showcasing superior performance compared to existing GAN-based and diffusion-based methods, as well as for several other unpaired image translation tasks. Our approach offers a fresh perspective on leveraging the semantic information encoded within the seed-space of pretrained DMs for effective image editing and manipulation.
- Abstract(参考訳): 本稿では,拡散モデル(DM)を用いた画像間翻訳の新しい手法であるシード・ツー・シード翻訳(StS)について紹介する。
拡散サンプリングの過程で画像を変更する既存の手法とは対照的に,事前に訓練されたDMの逆種子空間内に符号化された意味情報を利用して,シード空間と呼ぶ。
本研究では,倒立種子を識別的タスクに使用することができ,また,画像から画像への変換設定において,所望の変換を実現するために操作することもできることを示す。
本手法は,CycleGANに基づいて,ソースとターゲット種子間の不対訳モデルであるsts-GANを訓練することを含む。
最終翻訳画像は、翻訳された種子からDMのサンプリングプロセスを開始することによって得られる。
ControlNetは、入力画像の構造保存を保証するために使用される。
本稿では,既存のGAN法や拡散法よりも優れた性能を示す自動車シーンの翻訳作業や,その他の未完成画像翻訳作業に対するアプローチの有効性を実証する。
提案手法は,事前訓練されたDMのシード空間内に符号化された意味情報を有効画像編集・操作に利用するための新たな視点を提供する。
関連論文リスト
- StegoGAN: Leveraging Steganography for Non-Bijective Image-to-Image Translation [18.213286385769525]
CycleGANベースの手法は、生成した画像のミスマッチした情報を隠して、サイクル一貫性の目的をバイパスすることが知られている。
本稿では,ステガノグラフィーを利用した新しいモデルであるStegoGANを紹介した。
我々のアプローチは、追加の後処理や監督を必要とすることなく、翻訳画像のセマンティック一貫性を高める。
論文 参考訳(メタデータ) (2024-03-29T12:23:58Z) - Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing [58.48890547818074]
潜在拡散モデル(LDM)に対するコントラストデノナイジングスコア(CUT)の強力な修正を提案する。
提案手法により,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集が可能となり,入力と出力の間の構造的対応が達成される。
論文 参考訳(メタデータ) (2023-11-30T15:06:10Z) - Masked Discriminators for Content-Consistent Unpaired Image-to-Image
Translation [1.3654846342364308]
画像から画像への変換の欠如の共通のゴールは、ソース画像と翻訳画像の間のコンテンツ一貫性を維持することである。
コンテンツベースのマスクを用いて、両領域のグローバル識別器の入力をマスキングすることは、コンテンツの不整合を著しく低減するのに十分であることを示す。
実験により,本手法は,光現実的シミュレーショナル翻訳と気象翻訳において,最先端の性能を達成できることが判明した。
論文 参考訳(メタデータ) (2023-09-22T21:32:07Z) - Diffusion-based Image Translation with Label Guidance for Domain
Adaptive Semantic Segmentation [35.44771460784343]
ターゲットモデル学習のためのソースドメインからターゲットドメインへの変換は、ドメイン適応セマンティックセグメンテーション(DASS)において最も一般的な戦略の1つである。
既存の方法は、元の画像と翻訳された画像の間の意味的に一貫性のある局所的な詳細を保存するのに依然として苦労している。
本稿では、画像翻訳中にソースドメインラベルを明示的なガイダンスとして用いることにより、この問題に対処する革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-23T18:01:01Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Conditional Score Guidance for Text-Driven Image-to-Image Translation [52.73564644268749]
本稿では,事前訓練されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像変換のための新しいアルゴリズムを提案する。
本手法は,ソース画像の関心領域を選択的に編集することで,対象画像を生成することを目的とする。
論文 参考訳(メタデータ) (2023-05-29T10:48:34Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z) - Unbalanced Feature Transport for Exemplar-based Image Translation [51.54421432912801]
本稿では,画像翻訳における条件入力とスタイルの類似点間の特徴的アライメントに最適なトランスポートを組み込んだ一般画像翻訳フレームワークを提案する。
本手法は,最先端技術と比較して質的,定量的に優れた画像翻訳を実現する。
論文 参考訳(メタデータ) (2021-06-19T12:07:48Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - GAIT: Gradient Adjusted Unsupervised Image-to-Image Translation [5.076419064097734]
対向損失を利用して、翻訳された画像セットと対象画像セットの分布を一致させる。
これにより、2つの領域が例えば一様領域において異なる辺分布を持つようなアーティファクトが生成される。
本稿では,翻訳後の一様領域を保存する教師なしIITを提案する。
論文 参考訳(メタデータ) (2020-09-02T08:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。