論文の概要: ACE: Zero-Shot Image to Image Translation via Pretrained
Auto-Contrastive-Encoder
- arxiv url: http://arxiv.org/abs/2302.11705v1
- Date: Wed, 22 Feb 2023 23:52:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 16:48:42.176497
- Title: ACE: Zero-Shot Image to Image Translation via Pretrained
Auto-Contrastive-Encoder
- Title(参考訳): ACE: 事前制約されたオートコントラストエンコーダによるゼロショット画像から画像への変換
- Authors: Sihan Xu, Zelong Jiang, Ruisi Liu, Kaikai Yang and Zhijie Huang
- Abstract要約: 本研究では,同じデータ分布内のサンプルの類似点と相違点を学習し,画像の特徴を抽出する手法を提案する。
ACEの設計により、画像翻訳タスクのトレーニングを初めて行うことなく、ゼロショット画像から画像への変換を実現することができる。
本モデルは,ゼロショット学習を用いたマルチモーダル画像翻訳タスクにおける競合的な結果も達成する。
- 参考スコア(独自算出の注目度): 2.1874189959020427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-to-image translation is a fundamental task in computer vision. It
transforms images from one domain to images in another domain so that they have
particular domain-specific characteristics. Most prior works train a generative
model to learn the mapping from a source domain to a target domain. However,
learning such mapping between domains is challenging because data from
different domains can be highly unbalanced in terms of both quality and
quantity. To address this problem, we propose a new approach to extract image
features by learning the similarities and differences of samples within the
same data distribution via a novel contrastive learning framework, which we
call Auto-Contrastive-Encoder (ACE). ACE learns the content code as the
similarity between samples with the same content information and different
style perturbations. The design of ACE enables us to achieve zero-shot
image-to-image translation with no training on image translation tasks for the
first time.
Moreover, our learning method can learn the style features of images on
different domains effectively. Consequently, our model achieves competitive
results on multimodal image translation tasks with zero-shot learning as well.
Additionally, we demonstrate the potential of our method in transfer learning.
With fine-tuning, the quality of translated images improves in unseen domains.
Even though we use contrastive learning, all of our training can be performed
on a single GPU with the batch size of 8.
- Abstract(参考訳): 画像から画像への変換はコンピュータビジョンの基本課題である。
特定のドメイン固有の特性を持つように、あるドメインから別のドメインの画像に変換する。
ほとんどの先行作業は、ソースドメインからターゲットドメインへのマッピングを学ぶために生成モデルを訓練する。
しかし、ドメイン間のマッピングの学習は、異なるドメインからのデータが品質と量の両方で非常に不均衡になるため、難しい。
そこで本稿では,新しいコントラスト学習フレームワークであるAuto-Contrastive-Encoder(ACE)を用いて,同一データ分布内のサンプルの類似点と相違点を学習し,画像の特徴を抽出する手法を提案する。
ACEは、同じコンテンツ情報と異なるスタイルの摂動を持つサンプル間の類似性としてコンテンツコードを学ぶ。
aceの設計により、初めて画像翻訳タスクをトレーニングすることなく、ゼロショット画像対画像翻訳を実現することができる。
また,学習方法は,異なる領域の画像のスタイル特徴を効果的に学習することができる。
その結果,ゼロショット学習によるマルチモーダル画像翻訳タスクの競争結果が得られた。
さらに,本手法の転校学習における可能性を示す。
微調整により、翻訳画像の品質は目に見えない領域で向上する。
コントラスト学習を使用しても、トレーニングはすべて、バッチサイズが8.0の1つのgpu上で実行できます。
関連論文リスト
- Multi-cropping Contrastive Learning and Domain Consistency for
Unsupervised Image-to-Image Translation [5.562419999563734]
マルチクロップ型コントラスト学習とドメイン整合性に基づく新しい教師なし画像から画像への翻訳フレームワーク MCDUT を提案する。
多くの画像と画像の翻訳タスクにおいて,本手法は最先端の結果を達成し,その利点は比較実験とアブレーション研究によって証明されている。
論文 参考訳(メタデータ) (2023-04-24T16:20:28Z) - Multi-domain Unsupervised Image-to-Image Translation with Appearance
Adaptive Convolution [62.4972011636884]
本稿では,MDUIT(Multi-domain unsupervised image-to-image translation)フレームワークを提案する。
我々は、分解されたコンテンツ特徴と外観適応的畳み込みを利用して、画像をターゲットの外観に変換する。
提案手法は,最先端の手法と比較して,複数の領域で視覚的に多様かつ妥当な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-02-06T14:12:34Z) - Unaligned Image-to-Image Translation by Learning to Reweight [40.93678165567824]
教師なし画像から画像への変換は、トレーニングにペア画像を用いることなく、ソースからターゲットドメインへのマッピングを学習することを目的としている。
教師なしのイメージ翻訳に不可欠な仮定は、2つの領域が整列しているということである。
重要度再重み付けに基づく画像の選択を提案し,重み付けを学習し,同時に自動翻訳を行う手法を開発した。
論文 参考訳(メタデータ) (2021-09-24T04:08:22Z) - Self-Supervised Learning of Domain Invariant Features for Depth
Estimation [35.74969527929284]
単一画像深度推定のための教師なし合成-現実的領域適応の課題に対処する。
単一画像深度推定の重要なビルディングブロックはエンコーダ・デコーダ・タスク・ネットワークであり、RGB画像を入力とし、出力として深度マップを生成する。
本稿では,タスクネットワークにドメイン不変表現を自己教師型で学習させる新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-06-04T16:45:48Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z) - Retrieval Guided Unsupervised Multi-domain Image-to-Image Translation [59.73535607392732]
画像から画像への変換は、ある視覚領域から別の領域へ画像を変換するマッピングを学ぶことを目的としている。
本稿では,画像から画像への変換作業を支援するための画像検索システムを提案する。
論文 参考訳(メタデータ) (2020-08-11T20:11:53Z) - Contrastive Learning for Unpaired Image-to-Image Translation [64.47477071705866]
画像から画像への変換では、出力の各パッチは、入力中の対応するパッチの内容を、ドメインに依存しない形で反映すべきである。
本研究では,両者の相互情報を最大化するために,コントラスト学習に基づく枠組みを提案する。
筆者らのフレームワークは、画質の向上とトレーニング時間の短縮を図りながら、画像から画像への翻訳設定の一方的な翻訳を可能にすることを実証している。
論文 参考訳(メタデータ) (2020-07-30T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。