論文の概要: GP-UNIT: Generative Prior for Versatile Unsupervised Image-to-Image
Translation
- arxiv url: http://arxiv.org/abs/2306.04636v1
- Date: Wed, 7 Jun 2023 17:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 13:03:59.004705
- Title: GP-UNIT: Generative Prior for Versatile Unsupervised Image-to-Image
Translation
- Title(参考訳): gp-unit: 汎用的な教師なし画像から画像への変換のための生成前処理
- Authors: Shuai Yang, Liming Jiang, Ziwei Liu, Chen Change Loy
- Abstract要約: GP-UNIT(Generative Prior-Guided Unsupervised Image-to-image Translation)を新たに導入する。
GP-UNITは、近接ドメインと遠方のドメインの間で有効な翻訳を行うことができる。
我々は,最先端の翻訳モデルよりも頑健で高品質で多種多様な翻訳におけるGP-UNITの優位性を検証した。
- 参考スコア(独自算出の注目度): 103.54337984566877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep learning have witnessed many successful unsupervised
image-to-image translation models that learn correspondences between two visual
domains without paired data. However, it is still a great challenge to build
robust mappings between various domains especially for those with drastic
visual discrepancies. In this paper, we introduce a novel versatile framework,
Generative Prior-guided UNsupervised Image-to-image Translation (GP-UNIT), that
improves the quality, applicability and controllability of the existing
translation models. The key idea of GP-UNIT is to distill the generative prior
from pre-trained class-conditional GANs to build coarse-level cross-domain
correspondences, and to apply the learned prior to adversarial translations to
excavate fine-level correspondences. With the learned multi-level content
correspondences, GP-UNIT is able to perform valid translations between both
close domains and distant domains. For close domains, GP-UNIT can be
conditioned on a parameter to determine the intensity of the content
correspondences during translation, allowing users to balance between content
and style consistency. For distant domains, semi-supervised learning is
explored to guide GP-UNIT to discover accurate semantic correspondences that
are hard to learn solely from the appearance. We validate the superiority of
GP-UNIT over state-of-the-art translation models in robust, high-quality and
diversified translations between various domains through extensive experiments.
- Abstract(参考訳): 近年のディープラーニングの進歩は、ペアデータなしで2つの視覚領域間の対応を学習する教師なし画像-画像翻訳モデルの成功を目撃している。
しかしながら、特に劇的な視覚的不一致を持つ人々にとって、さまざまなドメイン間の堅牢なマッピングを構築することは依然として大きな課題である。
本稿では, 既存の翻訳モデルの品質, 適用性, 制御性を向上する, GP-UNIT(Generative Prior-guided UNsupervised Image-to-image Translation)を提案する。
GP-UNITの鍵となる考え方は、事前訓練されたクラス条件のGANから生成物を蒸留し、粗いレベルのクロスドメイン対応を構築することである。
GP-UNITは、学習されたマルチレベルコンテンツ対応により、近接ドメインと遠方のドメインの両方で有効な翻訳を行うことができる。
クローズドメインでは、GP-UNITをパラメータに条件付けして、翻訳中のコンテンツ対応の強度を決定することで、ユーザはコンテンツとスタイルの一貫性のバランスをとることができる。
遠方領域に対しては,GP-UNITを誘導する半教師あり学習を行い,外見からのみ学べない正確な意味対応を見出す。
本研究では,様々な領域間のロバストで高品質,多彩な翻訳において,最先端翻訳モデルよりもgp-unitの優位性を検証する。
関連論文リスト
- Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - Tell, Don't Show!: Language Guidance Eases Transfer Across Domains in Images and Videos [69.29778009769862]
ラベル付きソースから未ラベルのターゲットデータへの識別的知識の堅牢な転送をドメインギャップでガイドするフレームワークであるLaGTranを紹介する。
意味的にリッチなテキストモダリティがより好ましい転送特性を持つという我々の観察に触発された我々は、ソース学習されたテキスト分類器を用いて、ターゲットテキスト記述の予測を生成するための転送機構を考案した。
言語指導による私たちのアプローチは驚くほど簡単でシンプルですが、GeoNetやDomainNetといった挑戦的なデータセットに対する以前のアプローチよりもはるかに優れています。
論文 参考訳(メタデータ) (2024-03-08T18:58:46Z) - Towards Identifiable Unsupervised Domain Translation: A Diversified
Distribution Matching Approach [14.025593338693698]
教師なしドメイン翻訳(UDT)は、高レベルの意味論を変えることなく、あるドメインから別のドメインへサンプルを変換する関数を見つけることを目的としている。
本研究は、中核的識別可能性調査を掘り下げ、MPA除去理論を導入する。
この理論は, 補助変数誘導サブセット上の分布マッチングを用いたUDT学習者へ導かれる。
論文 参考訳(メタデータ) (2024-01-18T01:07:00Z) - Language-aware Domain Generalization Network for Cross-Scene
Hyperspectral Image Classification [15.842081807249416]
ハイパースペクトル画像分類における言語モードの有効性を検討する必要がある。
大規模な事前学習画像テキスト基盤モデルは、様々なダウンストリームアプリケーションで優れた性能を示している。
言語対応ドメイン一般化ネットワーク(LDGnet)を提案する。
論文 参考訳(メタデータ) (2022-09-06T10:06:10Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - Multi-domain Unsupervised Image-to-Image Translation with Appearance
Adaptive Convolution [62.4972011636884]
本稿では,MDUIT(Multi-domain unsupervised image-to-image translation)フレームワークを提案する。
我々は、分解されたコンテンツ特徴と外観適応的畳み込みを利用して、画像をターゲットの外観に変換する。
提案手法は,最先端の手法と比較して,複数の領域で視覚的に多様かつ妥当な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-02-06T14:12:34Z) - Smoothing the Disentangled Latent Style Space for Unsupervised
Image-to-Image Translation [56.55178339375146]
イメージ・ツー・イメージ(I2I)マルチドメイン翻訳モデルは通常、セマンティックな結果の品質を用いて評価される。
本稿では,翻訳ネットワークがスムーズでゆがみのあるラテントスタイル空間を学習するのに役立つ,3つの特定の損失に基づく新たなトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2021-06-16T17:58:21Z) - Rethinking the Truly Unsupervised Image-to-Image Translation [29.98784909971291]
教師なし画像画像変換モデル(TUNIT)は、画像領域を分離し、入力画像を推定領域に変換する。
実験結果から、TUNITはフルラベルでトレーニングされたセットレベルの教師付きモデルと同等またはそれ以上のパフォーマンスを達成することが示された。
TUNITはラベル付きデータで簡単にセミ教師付き学習に拡張できる。
論文 参考訳(メタデータ) (2020-06-11T15:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。