論文の概要: S2ST: Image-to-Image Translation in the Seed Space of Latent Diffusion
- arxiv url: http://arxiv.org/abs/2312.00116v1
- Date: Thu, 30 Nov 2023 18:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 16:50:22.918647
- Title: S2ST: Image-to-Image Translation in the Seed Space of Latent Diffusion
- Title(参考訳): S2ST:潜伏拡散の種空間における画像間変換
- Authors: Or Greenberg, Eran Kishon, Dani Lischinski
- Abstract要約: 複雑な画像におけるグローバルI2ITを実現するための新しいフレームワークであるS2STを紹介する。
S2STは遅延拡散モデルのシード空間内で動作し、後者が学習した強力な画像の先行処理を利用する。
S2STは、複雑な自動車シーンに対して、最先端のGANベースのI2IT手法、および拡散ベースのアプローチを超越していることを示す。
- 参考スコア(独自算出の注目度): 23.142097481682306
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image-to-image translation (I2IT) refers to the process of transforming
images from a source domain to a target domain while maintaining a fundamental
connection in terms of image content. In the past few years, remarkable
advancements in I2IT were achieved by Generative Adversarial Networks (GANs),
which nevertheless struggle with translations requiring high precision.
Recently, Diffusion Models have established themselves as the engine of choice
for image generation. In this paper we introduce S2ST, a novel framework
designed to accomplish global I2IT in complex photorealistic images, such as
day-to-night or clear-to-rain translations of automotive scenes. S2ST operates
within the seed space of a Latent Diffusion Model, thereby leveraging the
powerful image priors learned by the latter. We show that S2ST surpasses
state-of-the-art GAN-based I2IT methods, as well as diffusion-based approaches,
for complex automotive scenes, improving fidelity while respecting the target
domain's appearance across a variety of domains. Notably, S2ST obviates the
necessity for training domain-specific translation networks.
- Abstract(参考訳): 画像から画像への変換(英: Image-to-image translation, I2IT)とは、画像内容の基本的な接続を維持しながら、画像がソースドメインからターゲットドメインに変換される過程である。
ここ数年、I2ITの顕著な進歩はGAN(Generative Adversarial Networks)によって達成された。
近年,拡散モデルが画像生成のエンジンとして確立されている。
本稿では,自動車シーンの日夜や鮮明な翻訳など,複雑なフォトリアリスティック画像におけるグローバルI2ITを実現するための新しいフレームワークであるS2STを紹介する。
s2stは潜伏拡散モデルのシード空間内で動作し、後者が学習した強力な画像プリエントを活用する。
s2stは,複雑な自動車シーンに対する拡散に基づくアプローチだけでなく,最先端のganベースのi2it手法を上回っており,様々なドメインにおける対象領域の外観を尊重しながら忠実性を改善している。
特に、S2STはドメイン固有の翻訳ネットワークのトレーニングの必要性を排除している。
関連論文リスト
- An Analysis for Image-to-Image Translation and Style Transfer [7.074445137050722]
本稿では,画像間翻訳とスタイル変換の相違点と関連点を紹介する。
議論プロセス全体は、概念、フォーム、トレーニングモード、評価プロセス、視覚化結果を含む。
論文 参考訳(メタデータ) (2024-08-12T08:49:00Z) - Frequency-Controlled Diffusion Model for Versatile Text-Guided Image-to-Image Translation [17.30877810859863]
大規模テキスト・ツー・イメージ拡散モデル(T2I)は画像・画像翻訳(I2I)の強力なツールとして登場した。
本稿では,周波数制御拡散モデル(FCDiffusion)を提案する。
論文 参考訳(メタデータ) (2024-07-03T11:05:19Z) - Jurassic World Remake: Bringing Ancient Fossils Back to Life via
Zero-Shot Long Image-to-Image Translation [97.40572668025273]
テキスト誘導潜時拡散モデルを用いて、大きな領域ギャップをまたいだゼロショット画像-画像間変換(I2I)を行う。
大きな領域の隙間をまたいで翻訳を実行できることは、犯罪学、占星術、環境保全、古生物学における様々な現実世界の応用がある。
論文 参考訳(メタデータ) (2023-08-14T17:59:31Z) - Leveraging in-domain supervision for unsupervised image-to-image
translation tasks via multi-stream generators [4.726777092009554]
本稿では、翻訳品質の利点を活かすために、このドメイン内の貴重な事前知識を組み込むための2つの手法を紹介する。
本稿では,入力データをセマンティックマスクに従って分割し,画像の異なる領域の異なる動作にネットワークを明示的に導くことを提案する。
さらに,翻訳作業とともにセマンティックセグメンテーションネットワークを訓練し,この出力をロバスト性を向上させる損失項として活用することを提案する。
論文 参考訳(メタデータ) (2021-12-30T15:29:36Z) - Image-to-image Translation as a Unique Source of Knowledge [91.3755431537592]
本稿では,光学領域からSAR領域へのラベル付きデータセットの変換を行う。
積み重ねは、異なるI2I翻訳から学んだ知識を組み合わせる方法として提案され、単一のモデルに対して評価される。
論文 参考訳(メタデータ) (2021-12-03T12:12:04Z) - Aggregated Contextual Transformations for High-Resolution Image
Inpainting [57.241749273816374]
画像の高精細化のための拡張GANモデルAggregated Contextual-Transformation GAN (AOT-GAN)を提案する。
そこで,提案するAOTブロックの複数のレイヤを積み重ねることで,AOT-GANのジェネレータを構築する。
テクスチャ合成を改善するため,AOT-GANの識別をマスク予測タスクでトレーニングすることで強化する。
論文 参考訳(メタデータ) (2021-04-03T15:50:17Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z) - TIME: Text and Image Mutual-Translation Adversarial Networks [55.1298552773457]
テキストと画像相互変換対応ネットワーク(TIME)を提案する。
TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。
実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2020-05-27T06:40:12Z) - Domain Adaptation for Image Dehazing [72.15994735131835]
既存のほとんどの方法は、合成ヘイズ画像のデハージングモデルを訓練するが、ドメインシフトによる実際のヘイズ画像の一般化は困難である。
画像変換モジュールと2つの画像デハージングモジュールからなるドメイン適応パラダイムを提案する。
実世界の合成画像と実世界の画像の両方で実験結果から,我々のモデルは最先端の脱ハージングアルゴリズムに対して好適に機能することが示された。
論文 参考訳(メタデータ) (2020-05-10T13:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。