論文の概要: COCO-FUNIT: Few-Shot Unsupervised Image Translation with a Content
Conditioned Style Encoder
- arxiv url: http://arxiv.org/abs/2007.07431v3
- Date: Wed, 29 Jul 2020 02:06:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:44:11.066835
- Title: COCO-FUNIT: Few-Shot Unsupervised Image Translation with a Content
Conditioned Style Encoder
- Title(参考訳): COCO-FUNIT:コンテンツコンディション型エンコーダによる非教師なし画像翻訳
- Authors: Kuniaki Saito, Kate Saenko, Ming-Yu Liu
- Abstract要約: 教師なし画像画像変換は、与えられた領域内の画像と異なる領域内の類似画像とのマッピングを学習することを目的としている。
入力画像に条件付けされたサンプル画像のスタイル埋め込みを計算し、新しい数ショット画像変換モデルCOCO-FUNITを提案する。
本モデルは,コンテンツ損失問題に対処する上での有効性を示す。
- 参考スコア(独自算出の注目度): 70.23358875904891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised image-to-image translation intends to learn a mapping of an
image in a given domain to an analogous image in a different domain, without
explicit supervision of the mapping. Few-shot unsupervised image-to-image
translation further attempts to generalize the model to an unseen domain by
leveraging example images of the unseen domain provided at inference time.
While remarkably successful, existing few-shot image-to-image translation
models find it difficult to preserve the structure of the input image while
emulating the appearance of the unseen domain, which we refer to as the content
loss problem. This is particularly severe when the poses of the objects in the
input and example images are very different. To address the issue, we propose a
new few-shot image translation model, COCO-FUNIT, which computes the style
embedding of the example images conditioned on the input image and a new module
called the constant style bias. Through extensive experimental validations with
comparison to the state-of-the-art, our model shows effectiveness in addressing
the content loss problem. For code and pretrained models, please check out
https://nvlabs.github.io/COCO-FUNIT/ .
- Abstract(参考訳): 教師なし画像画像変換は、マッピングを明示的に監督することなく、与えられたドメイン内の画像と異なるドメイン内の類似画像とのマッピングを学習することを目的としている。
少数の教師なし画像から画像への変換は、推論時に提供される未監視ドメインの例画像を活用して、モデルを未監視ドメインに一般化する試みである。
目覚ましい成功を収める一方で、既存の写真から画像への変換モデルでは、コンテンツ損失問題(content loss problem)と呼ばれる未認識領域の外観を模倣しながら、入力画像の構造を保存することが困難である。
これは、入力とサンプル画像のオブジェクトのポーズが非常に異なる場合、特に深刻である。
この問題に対処するために,入力画像に条件づけられたサンプル画像のスタイル埋め込みを計算し,constant style biasと呼ばれる新しいモジュールを新たに導入するcoco-funitを提案する。
実験による検証と最新技術との比較により,本モデルはコンテンツ損失問題に対する有効性を示す。
コードと事前トレーニングされたモデルについては、https://nvlabs.github.io/coco-funit/をご覧ください。
関連論文リスト
- Conditional Diffusion on Web-Scale Image Pairs leads to Diverse Image Variations [32.892042877725125]
現在の画像変化技術では、同じ画像に条件付けされた入力画像の再構成にテキスト・ツー・イメージ・モデルを適用する。
凍結した埋め込み画像から入力画像の再構成を訓練した拡散モデルにより,小さなバリエーションで画像の再構成が可能であることを示す。
本稿では,画像ペアの集合を用いて画像の変動を生成するための事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T17:58:03Z) - Separating Content and Style for Unsupervised Image-to-Image Translation [20.44733685446886]
教師なしのイメージ・ツー・イメージ翻訳は、2つの視覚領域間のマッピングを未ペアのサンプルで学習することを目的としている。
統合されたフレームワークでコンテンツコードとスタイルコードを同時に分離することを提案する。
潜在機能と高レベルのドメイン不変タスクの相関から,提案手法は優れた性能を示す。
論文 参考訳(メタデータ) (2021-10-27T12:56:50Z) - ISF-GAN: An Implicit Style Function for High-Resolution Image-to-Image
Translation [55.47515538020578]
本研究は,マルチモーダル画像とマルチドメイン画像の直接変換を実現する暗黙的スタイル関数 (ISF) を提案する。
ヒトの顔と動物に対する手術の結果は,ベースラインよりも有意に改善した。
我々のモデルは、事前訓練された無条件GANを用いて、高解像度で費用対効果の高いマルチモーダル・アントラクショナル・イメージ・ツー・イメージ翻訳を可能にする。
論文 参考訳(メタデータ) (2021-09-26T04:51:39Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z) - BalaGAN: Image Translation Between Imbalanced Domains via Cross-Modal
Transfer [53.79505340315916]
ドメイン不均衡問題に対処するために特別に設計されたBalaGANを紹介する。
我々は、画像から画像への変換問題を、バランスよく、複数クラス、条件付き翻訳問題に変換するために、よりリッチなドメインの潜在モダリティを利用する。
本研究では,BalaGANが,無条件およびスタイル変換に基づく画像から画像への変換方式の強いベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-05T14:16:41Z) - Retrieval Guided Unsupervised Multi-domain Image-to-Image Translation [59.73535607392732]
画像から画像への変換は、ある視覚領域から別の領域へ画像を変換するマッピングを学ぶことを目的としている。
本稿では,画像から画像への変換作業を支援するための画像検索システムを提案する。
論文 参考訳(メタデータ) (2020-08-11T20:11:53Z) - Contrastive Learning for Unpaired Image-to-Image Translation [64.47477071705866]
画像から画像への変換では、出力の各パッチは、入力中の対応するパッチの内容を、ドメインに依存しない形で反映すべきである。
本研究では,両者の相互情報を最大化するために,コントラスト学習に基づく枠組みを提案する。
筆者らのフレームワークは、画質の向上とトレーニング時間の短縮を図りながら、画像から画像への翻訳設定の一方的な翻訳を可能にすることを実証している。
論文 参考訳(メタデータ) (2020-07-30T17:59:58Z) - Rethinking the Truly Unsupervised Image-to-Image Translation [29.98784909971291]
教師なし画像画像変換モデル(TUNIT)は、画像領域を分離し、入力画像を推定領域に変換する。
実験結果から、TUNITはフルラベルでトレーニングされたセットレベルの教師付きモデルと同等またはそれ以上のパフォーマンスを達成することが示された。
TUNITはラベル付きデータで簡単にセミ教師付き学習に拡張できる。
論文 参考訳(メタデータ) (2020-06-11T15:15:12Z) - GANILLA: Generative Adversarial Networks for Image to Illustration
Translation [12.55972766570669]
現状のイメージ・ツー・イメージ翻訳モデルでは,スタイルとコンテンツのいずれかを変換することに成功したが,同時に両者を転送することはできなかった。
本稿では,この問題に対処する新しいジェネレータネットワークを提案し,その結果のネットワークがスタイルとコンテンツのバランスを良くすることを示す。
論文 参考訳(メタデータ) (2020-02-13T17:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。