論文の概要: Unsupervised Image-to-Image Translation with Generative Prior
- arxiv url: http://arxiv.org/abs/2204.03641v1
- Date: Thu, 7 Apr 2022 17:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 14:09:10.428473
- Title: Unsupervised Image-to-Image Translation with Generative Prior
- Title(参考訳): 生成優先による教師なし画像間翻訳
- Authors: Shuai Yang, Liming Jiang, Ziwei Liu, Chen Change Loy
- Abstract要約: 教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 103.54337984566877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised image-to-image translation aims to learn the translation between
two visual domains without paired data. Despite the recent progress in image
translation models, it remains challenging to build mappings between complex
domains with drastic visual discrepancies. In this work, we present a novel
framework, Generative Prior-guided UNsupervised Image-to-image Translation
(GP-UNIT), to improve the overall quality and applicability of the translation
algorithm. Our key insight is to leverage the generative prior from pre-trained
class-conditional GANs (e.g., BigGAN) to learn rich content correspondences
across various domains. We propose a novel coarse-to-fine scheme: we first
distill the generative prior to capture a robust coarse-level content
representation that can link objects at an abstract semantic level, based on
which fine-level content features are adaptively learned for more accurate
multi-level content correspondences. Extensive experiments demonstrate the
superiority of our versatile framework over state-of-the-art methods in robust,
high-quality and diversified translations, even for challenging and distant
domains.
- Abstract(参考訳): unsupervised image-to-image translationは、2つのビジュアルドメイン間の翻訳をペアデータなしで学習することを目的としている。
近年,画像翻訳モデルが進歩しているにもかかわらず,複雑な領域間のマッピングを構築することは困難である。
本稿では,この翻訳アルゴリズムの全体的な品質と適用性を改善するために,生成優先型画像間変換(gp-unit)という新しい枠組みを提案する。
私たちの重要な洞察は、事前訓練されたクラス条件gan(例えばbiggan)からのジェネレーティブを活用して、さまざまなドメインにまたがるリッチコンテンツ対応を学ぶことです。
より正確なマルチレベルコンテンツ対応のために、より詳細なコンテンツ特徴を適応的に学習する手法に基づいて、オブジェクトを抽象的な意味レベルでリンクできる頑健な粗いレベルのコンテンツ表現をキャプチャする前に、まず生成物を蒸留する。
広範な実験によって、頑健で高品質で多彩な翻訳において最先端の手法よりも汎用性が優れていることが示されました。
関連論文リスト
- GP-UNIT: Generative Prior for Versatile Unsupervised Image-to-Image
Translation [103.54337984566877]
GP-UNIT(Generative Prior-Guided Unsupervised Image-to-image Translation)を新たに導入する。
GP-UNITは、近接ドメインと遠方のドメインの間で有効な翻訳を行うことができる。
我々は,最先端の翻訳モデルよりも頑健で高品質で多種多様な翻訳におけるGP-UNITの優位性を検証した。
論文 参考訳(メタデータ) (2023-06-07T17:59:22Z) - Masked and Adaptive Transformer for Exemplar Based Image Translation [16.93344592811513]
ドメイン間のセマンティックマッチングは難しい。
正確なクロスドメイン対応を学習するためのマスク付き適応変換器(MAT)を提案する。
品質識別型スタイル表現を得るための新しいコントラスト型スタイル学習法を考案する。
論文 参考訳(メタデータ) (2023-03-30T03:21:14Z) - Pretraining is All You Need for Image-to-Image Translation [59.43151345732397]
画像から画像への一般的な翻訳を促進するために,事前学習を使うことを提案する。
提案した事前学習型画像画像変換(PITI)は,前例のないリアリズムと忠実さのイメージを合成できることを示す。
論文 参考訳(メタデータ) (2022-05-25T17:58:26Z) - Multi-domain Unsupervised Image-to-Image Translation with Appearance
Adaptive Convolution [62.4972011636884]
本稿では,MDUIT(Multi-domain unsupervised image-to-image translation)フレームワークを提案する。
我々は、分解されたコンテンツ特徴と外観適応的畳み込みを利用して、画像をターゲットの外観に変換する。
提案手法は,最先端の手法と比較して,複数の領域で視覚的に多様かつ妥当な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-02-06T14:12:34Z) - Leveraging in-domain supervision for unsupervised image-to-image
translation tasks via multi-stream generators [4.726777092009554]
本稿では、翻訳品質の利点を活かすために、このドメイン内の貴重な事前知識を組み込むための2つの手法を紹介する。
本稿では,入力データをセマンティックマスクに従って分割し,画像の異なる領域の異なる動作にネットワークを明示的に導くことを提案する。
さらに,翻訳作業とともにセマンティックセグメンテーションネットワークを訓練し,この出力をロバスト性を向上させる損失項として活用することを提案する。
論文 参考訳(メタデータ) (2021-12-30T15:29:36Z) - Separating Content and Style for Unsupervised Image-to-Image Translation [20.44733685446886]
教師なしのイメージ・ツー・イメージ翻訳は、2つの視覚領域間のマッピングを未ペアのサンプルで学習することを目的としている。
統合されたフレームワークでコンテンツコードとスタイルコードを同時に分離することを提案する。
潜在機能と高レベルのドメイン不変タスクの相関から,提案手法は優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-27T12:56:50Z) - Harnessing the Conditioning Sensorium for Improved Image Translation [2.9631016562930546]
マルチモーダル・ドメイン・トランスレーション(マルチモーダル・ドメイン・トランスレーション)は、通常、ある局所的な属性を「コンテンツ」イメージから継承する新しいイメージを指す。
本稿では,非絡み合った「コンテンツ」表現と「スタイル」表現をスクラッチから学習するための新しいアプローチを提案する。
既成モデルから抽出した条件情報に基づいて「コンテンツ」を定義する。
次に、再構成対象のセットを最適化し易い方法で、スタイル抽出器とイメージデコーダを訓練する。
論文 参考訳(メタデータ) (2021-10-13T02:07:43Z) - Smoothing the Disentangled Latent Style Space for Unsupervised
Image-to-Image Translation [56.55178339375146]
イメージ・ツー・イメージ(I2I)マルチドメイン翻訳モデルは通常、セマンティックな結果の品質を用いて評価される。
本稿では,翻訳ネットワークがスムーズでゆがみのあるラテントスタイル空間を学習するのに役立つ,3つの特定の損失に基づく新たなトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2021-06-16T17:58:21Z) - BalaGAN: Image Translation Between Imbalanced Domains via Cross-Modal
Transfer [53.79505340315916]
ドメイン不均衡問題に対処するために特別に設計されたBalaGANを紹介する。
我々は、画像から画像への変換問題を、バランスよく、複数クラス、条件付き翻訳問題に変換するために、よりリッチなドメインの潜在モダリティを利用する。
本研究では,BalaGANが,無条件およびスタイル変換に基づく画像から画像への変換方式の強いベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-05T14:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。