論文の概要: SoloGAN: Multi-domain Multimodal Unpaired Image-to-Image Translation via
a Single Generative Adversarial Network
- arxiv url: http://arxiv.org/abs/2008.01681v3
- Date: Tue, 28 Jun 2022 18:35:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 00:40:57.542518
- Title: SoloGAN: Multi-domain Multimodal Unpaired Image-to-Image Translation via
a Single Generative Adversarial Network
- Title(参考訳): sologan: 単一の生成型adversarial networkによるマルチドメインマルチモーダル画像対画像変換
- Authors: Shihua Huang, Cheng He, Ran Cheng
- Abstract要約: 本稿では、複数のドメイン間の効率的なマルチモーダルI2I翻訳のためのフレキシブルで汎用的なSoloGANモデルを提案する。
既存の手法とは対照的に、SoloGANアルゴリズムは追加の補助分類器を備えた単一の射影判別器を使用し、すべてのドメインに対してエンコーダとジェネレータを共有する。
- 参考スコア(独自算出の注目度): 4.7344504314446345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant advances in image-to-image (I2I) translation with
generative adversarial networks (GANs), it remains challenging to effectively
translate an image to a set of diverse images in multiple target domains using
a single pair of generator and discriminator. Existing I2I translation methods
adopt multiple domain-specific content encoders for different domains, where
each domain-specific content encoder is trained with images from the same
domain only. Nevertheless, we argue that the content (domain-invariance)
features should be learned from images among all of the domains. Consequently,
each domain-specific content encoder of existing schemes fails to extract the
domain-invariant features efficiently. To address this issue, we present a
flexible and general SoloGAN model for efficient multimodal I2I translation
among multiple domains with unpaired data. In contrast to existing methods, the
SoloGAN algorithm uses a single projection discriminator with an additional
auxiliary classifier and shares the encoder and generator for all domains.
Consequently, the SoloGAN can be trained effectively with images from all
domains such that the domain-invariance content representation can be
efficiently extracted. Qualitative and quantitative results over a wide range
of datasets against several counterparts and variants of the SoloGAN
demonstrate the merits of the method, especially for challenging I2I
translation datasets, i.e., datasets involving extreme shape variations or need
to keep the complex backgrounds unchanged after translations. Furthermore, we
demonstrate the contribution of each component in SoloGAN by ablation studies.
- Abstract(参考訳): 画像から画像への変換 (I2I) はGAN (Generative Adversarial Network) と大きく進歩しているが, 単一のジェネレータと識別器を用いて, 複数領域の多様な画像に効果的に変換することは困難である。
既存のI2I翻訳手法では、異なるドメインに対して複数のドメイン固有のコンテンツエンコーダが採用されている。
それでも、すべての領域のイメージからコンテンツ(ドメイン不変性)の特徴を学習すべきである。
したがって、既存のスキームの各ドメイン固有のコンテンツエンコーダは、ドメイン不変の特徴を効率的に抽出することができない。
この問題に対処するために、複数のドメイン間の効率的なマルチモーダルI2I翻訳のためのフレキシブルで汎用的なSoloGANモデルを提案する。
既存の手法とは対照的に、SoloGANアルゴリズムは追加の補助分類器を備えた単一の射影判別器を使用し、すべてのドメインに対してエンコーダとジェネレータを共有する。
これにより、ドメイン不変コンテンツ表現を効率的に抽出できるように、SoloGANを全ドメインの画像で効果的に訓練することができる。
幅広いデータセットに対する質的かつ定量的な結果が、この方法のメリット、特にi2i翻訳データセットへの挑戦、すなわち極端な形状の変化を伴うデータセット、あるいは翻訳後の複雑な背景を不変に保つ必要があることのメリットを示している。
さらに,ソロガン中の各成分のアブレーション研究による寄与を示す。
関連論文リスト
- I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP [30.506544165999564]
ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。
我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:44:50Z) - WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - Domain-Scalable Unpaired Image Translation via Latent Space Anchoring [88.7642967393508]
Unpaired Image-to-image Translation (UNIT)は、2つの視覚領域間の画像をペアのトレーニングデータなしでマッピングすることを目的としている。
そこで本研究では、潜在空間アンカーと呼ばれる新しい領域スケーリング可能なUNIT手法を提案する。
本手法は, 軽量エンコーダと回帰器モデルを学習することにより, 異なる領域の画像を, 凍ったGANと同じ潜伏空間に固定する。
推論フェーズでは、異なるドメインの学習エンコーダとデコーダを任意に組み合わせて、微調整なしで任意の2つのドメイン間で画像を変換することができる。
論文 参考訳(メタデータ) (2023-06-26T17:50:02Z) - Multi-Scale Multi-Target Domain Adaptation for Angle Closure
Classification [50.658613573816254]
角度閉包分類のためのM2DAN(Multi-scale Multi-target Domain Adversarial Network)を提案する。
異なるスケールでのこれらのドメイン不変性に基づいて、ソースドメインで訓練されたディープモデルは、複数のターゲットドメインの角度クロージャを分類することができる。
論文 参考訳(メタデータ) (2022-08-25T15:27:55Z) - Multi-domain Unsupervised Image-to-Image Translation with Appearance
Adaptive Convolution [62.4972011636884]
本稿では,MDUIT(Multi-domain unsupervised image-to-image translation)フレームワークを提案する。
我々は、分解されたコンテンツ特徴と外観適応的畳み込みを利用して、画像をターゲットの外観に変換する。
提案手法は,最先端の手法と比較して,複数の領域で視覚的に多様かつ妥当な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-02-06T14:12:34Z) - Disentangled Unsupervised Image Translation via Restricted Information
Flow [61.44666983942965]
多くの最先端のメソッドは、所望の共有vs固有の分割をアーキテクチャにハードコードする。
帰納的アーキテクチャバイアスに依存しない新しい手法を提案する。
提案手法は,2つの合成データセットと1つの自然なデータセットに対して一貫した高い操作精度を実現する。
論文 参考訳(メタデータ) (2021-11-26T00:27:54Z) - Crossing-Domain Generative Adversarial Networks for Unsupervised
Multi-Domain Image-to-Image Translation [12.692904507625036]
複数の領域にまたがる教師なし画像間翻訳のための一般的なフレームワークを提案する。
提案するフレームワークは,一対のエンコーダと一対のGANから構成される。
論文 参考訳(メタデータ) (2020-08-27T01:54:07Z) - Multi-Domain Image Completion for Random Missing Input Data [17.53581223279953]
マルチドメインデータは、異なるモダリティからの相補的な情報を利用する視覚アプリケーションで広く活用されている。
データ破損と異なるイメージングプロトコルにより、各領域のイメージの可用性は複数のデータソースによって異なる可能性がある。
実アプリケーションでランダムに欠落したドメイン(s)データを補完する一般的な手法を提案する。
論文 参考訳(メタデータ) (2020-07-10T16:38:48Z) - GMM-UNIT: Unsupervised Multi-Domain and Multi-Modal Image-to-Image
Translation via Attribute Gaussian Mixture Modeling [66.50914391679375]
unsupervised image-to-image translation (UNIT) は、未経験の訓練画像を用いて、複数の視覚領域間のマッピングを学習することを目的としている。
最近の研究は、複数のドメインで顕著な成功を示しているが、それらは2つの主要な制限に悩まされている。
GMM-UNITという,空間にGMMを組み込むコンテンツ属性不整合表現に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-03-15T10:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。