論文の概要: BalaGAN: Image Translation Between Imbalanced Domains via Cross-Modal
Transfer
- arxiv url: http://arxiv.org/abs/2010.02036v2
- Date: Sat, 5 Jun 2021 14:24:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 21:59:31.023007
- Title: BalaGAN: Image Translation Between Imbalanced Domains via Cross-Modal
Transfer
- Title(参考訳): BalaGAN: クロスモーダル転送による不均衡ドメイン間の画像変換
- Authors: Or Patashnik, Dov Danon, Hao Zhang, Daniel Cohen-Or
- Abstract要約: ドメイン不均衡問題に対処するために特別に設計されたBalaGANを紹介する。
我々は、画像から画像への変換問題を、バランスよく、複数クラス、条件付き翻訳問題に変換するために、よりリッチなドメインの潜在モダリティを利用する。
本研究では,BalaGANが,無条件およびスタイル変換に基づく画像から画像への変換方式の強いベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 53.79505340315916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art image-to-image translation methods tend to struggle in an
imbalanced domain setting, where one image domain lacks richness and diversity.
We introduce a new unsupervised translation network, BalaGAN, specifically
designed to tackle the domain imbalance problem. We leverage the latent
modalities of the richer domain to turn the image-to-image translation problem,
between two imbalanced domains, into a balanced, multi-class, and conditional
translation problem, more resembling the style transfer setting. Specifically,
we analyze the source domain and learn a decomposition of it into a set of
latent modes or classes, without any supervision. This leaves us with a
multitude of balanced cross-domain translation tasks, between all pairs of
classes, including the target domain. During inference, the trained network
takes as input a source image, as well as a reference or style image from one
of the modes as a condition, and produces an image which resembles the source
on the pixel-wise level, but shares the same mode as the reference. We show
that employing modalities within the dataset improves the quality of the
translated images, and that BalaGAN outperforms strong baselines of both
unconditioned and style-transfer-based image-to-image translation methods, in
terms of image quality and diversity.
- Abstract(参考訳): 最先端の画像から画像への翻訳手法は、ある画像領域が豊かさと多様性に欠ける不均衡な領域設定で苦労する傾向がある。
本研究では,ドメイン不均衡問題に対処するために,新たな教師なし翻訳ネットワークBalaGANを導入する。
我々は、よりリッチなドメインの潜伏モードを利用して、画像から画像への変換問題を2つの不均衡なドメイン間で、バランスの取れたマルチクラス、条件付き翻訳問題に変換する。
具体的には、ソースドメインを分析し、それを潜在モードやクラスに分解して、何の監督もせずに学習する。
これにより、ターゲットドメインを含むすべてのクラス間で、多数のバランスのとれたクロスドメイン変換タスクが残されます。
推論中、トレーニングされたネットワークは、ソースイメージと、モードの1つからの参照またはスタイルイメージを条件として入力し、ピクセル単位のソースに類似するイメージを生成するが、参照と同じモードを共有する。
画像の品質と多様性の観点から,BalaGANは無条件およびスタイル変換に基づく画像から画像への変換手法の強いベースラインを上回り,データセット内でのモダリティの活用によって翻訳画像の品質が向上することを示す。
関連論文リスト
- Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - Multi-domain Unsupervised Image-to-Image Translation with Appearance
Adaptive Convolution [62.4972011636884]
本稿では,MDUIT(Multi-domain unsupervised image-to-image translation)フレームワークを提案する。
我々は、分解されたコンテンツ特徴と外観適応的畳み込みを利用して、画像をターゲットの外観に変換する。
提案手法は,最先端の手法と比較して,複数の領域で視覚的に多様かつ妥当な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-02-06T14:12:34Z) - Separating Content and Style for Unsupervised Image-to-Image Translation [20.44733685446886]
教師なしのイメージ・ツー・イメージ翻訳は、2つの視覚領域間のマッピングを未ペアのサンプルで学習することを目的としている。
統合されたフレームワークでコンテンツコードとスタイルコードを同時に分離することを提案する。
潜在機能と高レベルのドメイン不変タスクの相関から,提案手法は優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-27T12:56:50Z) - Unaligned Image-to-Image Translation by Learning to Reweight [40.93678165567824]
教師なし画像から画像への変換は、トレーニングにペア画像を用いることなく、ソースからターゲットドメインへのマッピングを学習することを目的としている。
教師なしのイメージ翻訳に不可欠な仮定は、2つの領域が整列しているということである。
重要度再重み付けに基づく画像の選択を提案し,重み付けを学習し,同時に自動翻訳を行う手法を開発した。
論文 参考訳(メタデータ) (2021-09-24T04:08:22Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z) - Retrieval Guided Unsupervised Multi-domain Image-to-Image Translation [59.73535607392732]
画像から画像への変換は、ある視覚領域から別の領域へ画像を変換するマッピングを学ぶことを目的としている。
本稿では,画像から画像への変換作業を支援するための画像検索システムを提案する。
論文 参考訳(メタデータ) (2020-08-11T20:11:53Z) - COCO-FUNIT: Few-Shot Unsupervised Image Translation with a Content
Conditioned Style Encoder [70.23358875904891]
教師なし画像画像変換は、与えられた領域内の画像と異なる領域内の類似画像とのマッピングを学習することを目的としている。
入力画像に条件付けされたサンプル画像のスタイル埋め込みを計算し、新しい数ショット画像変換モデルCOCO-FUNITを提案する。
本モデルは,コンテンツ損失問題に対処する上での有効性を示す。
論文 参考訳(メタデータ) (2020-07-15T02:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。