論文の概要: StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis
- arxiv url: http://arxiv.org/abs/2104.07098v1
- Date: Wed, 14 Apr 2021 19:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 14:58:29.245091
- Title: StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis
- Title(参考訳): StEP:マルチモーダル画像合成のためのスタイルベースエンコーダ事前学習
- Authors: Moustafa Meshry, Yixuan Ren, Larry S Davis, Abhinav Shrivastava
- Abstract要約: マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
- 参考スコア(独自算出の注目度): 68.3787368024951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel approach for multi-modal Image-to-image (I2I) translation.
To tackle the one-to-many relationship between input and output domains,
previous works use complex training objectives to learn a latent embedding,
jointly with the generator, that models the variability of the output domain.
In contrast, we directly model the style variability of images, independent of
the image synthesis task. Specifically, we pre-train a generic style encoder
using a novel proxy task to learn an embedding of images, from arbitrary
domains, into a low-dimensional style latent space. The learned latent space
introduces several advantages over previous traditional approaches to
multi-modal I2I translation. First, it is not dependent on the target dataset,
and generalizes well across multiple domains. Second, it learns a more powerful
and expressive latent space, which improves the fidelity of style capture and
transfer. The proposed style pre-training also simplifies the training
objective and speeds up the training significantly. Furthermore, we provide a
detailed study of the contribution of different loss terms to the task of
multi-modal I2I translation, and propose a simple alternative to VAEs to enable
sampling from unconstrained latent spaces. Finally, we achieve state-of-the-art
results on six challenging benchmarks with a simple training objective that
includes only a GAN loss and a reconstruction loss.
- Abstract(参考訳): マルチモーダル画像画像変換(I2I)のための新しい手法を提案する。
入力領域と出力領域の間の一対一の関係に取り組むために、前者は複雑な訓練目的を用いて、出力領域の変動性をモデル化するジェネレータと共同で潜在埋め込みを学ぶ。
対照的に,画像合成タスクとは無関係に,画像のスタイル変動を直接モデル化する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元スタイル潜在空間への画像の埋め込みを学習する。
学習された潜在空間は、従来のマルチモーダルI2I翻訳のアプローチよりもいくつかの利点をもたらす。
まず、ターゲットデータセットに依存せず、複数のドメインにわたってうまく一般化する。
第二に、より強力で表現力のある潜在空間を学習し、スタイルキャプチャーと転送の忠実さを向上させる。
提案手法はトレーニング目標を単純化し,トレーニングを高速化する。
さらに,多モーダルI2I翻訳の課題に対する異なる損失項の寄与に関する詳細な研究を行い,制約のない潜在空間からのサンプリングを可能にするために,VAEの簡単な代替案を提案する。
最後に,gan損失と再構成損失のみを含む単純なトレーニング目標を用いて,6つの難易度ベンチマークで最新の結果を得る。
関連論文リスト
- I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP [30.506544165999564]
ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。
我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:44:50Z) - SCONE-GAN: Semantic Contrastive learning-based Generative Adversarial
Network for an end-to-end image translation [18.93434486338439]
SCONE-GANはリアルで多様な風景画像を生成する学習に有効であることが示されている。
より現実的で多様な画像生成のために、スタイル参照画像を導入します。
画像から画像への変換と屋外画像のスタイリングのための提案アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-11-07T10:29:16Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Pretraining is All You Need for Image-to-Image Translation [59.43151345732397]
画像から画像への一般的な翻訳を促進するために,事前学習を使うことを提案する。
提案した事前学習型画像画像変換(PITI)は,前例のないリアリズムと忠実さのイメージを合成できることを示す。
論文 参考訳(メタデータ) (2022-05-25T17:58:26Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Unsupervised Multi-Modal Medical Image Registration via
Discriminator-Free Image-to-Image Translation [4.43142018105102]
本稿では,複数モーダル登録問題をモノモーダル画像に変換するための,新しい翻訳に基づく教師なしデフォルマブル画像登録手法を提案する。
提案手法では,登録ネットワークのトレーニングを容易にするために,識別不要な翻訳ネットワークと,オブジェクトの形状を保たせるためのパッチワイドなコントラスト損失が組み込まれている。
論文 参考訳(メタデータ) (2022-04-28T17:18:21Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z) - One-Shot Generative Domain Adaptation [39.17324951275831]
本研究の目的は,GAN (Generative Adversarial Network) を1つの画像領域に事前トレーニングし,対象とする画像がわずかに少ない新しい領域に転送することである。
論文 参考訳(メタデータ) (2021-11-18T18:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。