論文の概要: UVCGAN: UNet Vision Transformer cycle-consistent GAN for unpaired
image-to-image translation
- arxiv url: http://arxiv.org/abs/2203.02557v1
- Date: Fri, 4 Mar 2022 20:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 10:35:13.080466
- Title: UVCGAN: UNet Vision Transformer cycle-consistent GAN for unpaired
image-to-image translation
- Title(参考訳): UVCGAN: UNet Vision Transformer cycle-consistent GAN for unpaired Image-to-image translation
- Authors: Dmitrii Torbunov, Yi Huang, Haiwang Yu, Jin Huang, Shinjae Yoo,
Meifeng Lin, Brett Viren, Yihui Ren
- Abstract要約: 画像から画像への翻訳は、芸術、デザイン、科学シミュレーションに広く応用されている。
本研究は,視覚変換器(ViT)をCycleGANに装着し,GANトレーニング技術を用いてより優れた性能を実現するかを検討する。
- 参考スコア(独自算出の注目度): 7.998209482848582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-to-image translation has broad applications in art, design, and
scientific simulations. The original CycleGAN model emphasizes one-to-one
mapping via a cycle-consistent loss, while more recent works promote
one-to-many mapping to boost the diversity of the translated images. With
scientific simulation and one-to-one needs in mind, this work examines if
equipping CycleGAN with a vision transformer (ViT) and employing advanced
generative adversarial network (GAN) training techniques can achieve better
performance. The resulting UNet ViT Cycle-consistent GAN (UVCGAN) model is
compared with previous best-performing models on open benchmark image-to-image
translation datasets, Selfie2Anime and CelebA. UVCGAN performs better and
retains a strong correlation between the original and translated images. An
accompanying ablation study shows that the gradient penalty and BERT-like
pre-training also contribute to the improvement.~To promote reproducibility and
open science, the source code, hyperparameter configurations, and pre-trained
model will be made available at: https://github.com/LS4GAN/uvcga.
- Abstract(参考訳): 画像から画像への翻訳は、芸術、デザイン、科学シミュレーションに広く応用されている。
オリジナルのCycleGANモデルは、サイクル一貫性損失による1対1のマッピングを強調し、より最近の研究は、翻訳された画像の多様性を高めるために1対1のマッピングを促進する。
科学シミュレーションとワン・ツー・ワンのニーズを念頭に置いて,視覚変換器(ViT)でCycleGANを装着し,GAN(Generative Adversarial Network)の高度なトレーニング技術を用いて,より優れたパフォーマンスを実現するかを検討する。
得られたunet vitサイクル一貫性gan(uvcgan)モデルは、open benchmark image-to-image translationデータセット、selfie2anime、celebaの以前のベストパフォーマンスモデルと比較される。
UVCGANの性能は向上し、元の画像と翻訳画像の相関が強い。
補助的アブレーション研究は、勾配のペナルティとBERTのような事前訓練が改善に寄与していることを示している。
再現性とオープンサイエンスを促進するため、ソースコード、ハイパーパラメータ設定、事前トレーニングされたモデルは、https://github.com/LS4GAN/uvcga.comで利用可能になる。
関連論文リスト
- Iterative Prompt Relabeling for diffusion model with RLDF [32.60206876828442]
拡散モデルは、画像生成、時系列予測、強化学習など、多くの領域で顕著な性能を示している。
本稿では,反復的な画像サンプリングとプロンプト・レバーベリングにより,画像とテキストを協調する新しいアルゴリズムIP-RLDFを提案する。
SDv2, GLIGEN, SDXLの3種類のモデルに対して徹底的な実験を行い, 命令に従って画像を生成する能力を検証した。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - DiffiT: Diffusion Vision Transformers for Image Generation [94.50195596375316]
Diffusion Vision Transformers (DiffiT) はU字型エンコーダとデコーダを備えたハイブリッド階層アーキテクチャである。
DiffiTは、高忠実度画像を生成するのに驚くほど効果的です。
潜在領域では、DiffiTはImageNet-256データセットで1.73の新しいSOTA FIDスコアを達成している。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Semantic Image Synthesis with Semantically Coupled VQ-Model [42.19799555533789]
本稿では,ベクトル量子化モデル (VQ-model) から遅延空間を条件付きで合成する。
本モデルは,ADE20k,Cityscapes,COCO-Stuffといった人気セマンティック画像データセットを用いた自己回帰モデルを用いて,セマンティック画像合成を改善することを示す。
論文 参考訳(メタデータ) (2022-09-06T14:37:01Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - You Only Need Adversarial Supervision for Semantic Image Synthesis [84.83711654797342]
我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。
本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
論文 参考訳(メタデータ) (2020-12-08T23:00:48Z) - Incorporating Reinforced Adversarial Learning in Autoregressive Image
Generation [39.55651747758391]
本稿では,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。
RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。
提案手法は,64$times$64画像解像度でCelebaの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-07-20T08:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。