Fugu-MT 論文翻訳(概要): UVCGAN: UNet Vision Transformer cycle-consistent GAN for unpaired image-to-image translation

論文の概要: UVCGAN: UNet Vision Transformer cycle-consistent GAN for unpaired image-to-image translation

arxiv url: http://arxiv.org/abs/2203.02557v1
Date: Fri, 4 Mar 2022 20:27:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-10 10:35:13.080466
Title: UVCGAN: UNet Vision Transformer cycle-consistent GAN for unpaired image-to-image translation
Title（参考訳）: UVCGAN: UNet Vision Transformer cycle-consistent GAN for unpaired Image-to-image translation
Authors: Dmitrii Torbunov, Yi Huang, Haiwang Yu, Jin Huang, Shinjae Yoo, Meifeng Lin, Brett Viren, Yihui Ren
Abstract要約: 画像から画像への翻訳は、芸術、デザイン、科学シミュレーションに広く応用されている。本研究は,視覚変換器(ViT)をCycleGANに装着し,GANトレーニング技術を用いてより優れた性能を実現するかを検討する。
参考スコア（独自算出の注目度）: 7.998209482848582
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image-to-image translation has broad applications in art, design, and scientific simulations. The original CycleGAN model emphasizes one-to-one mapping via a cycle-consistent loss, while more recent works promote one-to-many mapping to boost the diversity of the translated images. With scientific simulation and one-to-one needs in mind, this work examines if equipping CycleGAN with a vision transformer (ViT) and employing advanced generative adversarial network (GAN) training techniques can achieve better performance. The resulting UNet ViT Cycle-consistent GAN (UVCGAN) model is compared with previous best-performing models on open benchmark image-to-image translation datasets, Selfie2Anime and CelebA. UVCGAN performs better and retains a strong correlation between the original and translated images. An accompanying ablation study shows that the gradient penalty and BERT-like pre-training also contribute to the improvement.~To promote reproducibility and open science, the source code, hyperparameter configurations, and pre-trained model will be made available at: https://github.com/LS4GAN/uvcga.
Abstract（参考訳）: 画像から画像への翻訳は、芸術、デザイン、科学シミュレーションに広く応用されている。オリジナルのCycleGANモデルは、サイクル一貫性損失による1対1のマッピングを強調し、より最近の研究は、翻訳された画像の多様性を高めるために1対1のマッピングを促進する。科学シミュレーションとワン・ツー・ワンのニーズを念頭に置いて,視覚変換器(ViT)でCycleGANを装着し,GAN(Generative Adversarial Network)の高度なトレーニング技術を用いて,より優れたパフォーマンスを実現するかを検討する。得られたunet vitサイクル一貫性gan(uvcgan)モデルは、open benchmark image-to-image translationデータセット、selfie2anime、celebaの以前のベストパフォーマンスモデルと比較される。 UVCGANの性能は向上し、元の画像と翻訳画像の相関が強い。補助的アブレーション研究は、勾配のペナルティとBERTのような事前訓練が改善に寄与していることを示している。再現性とオープンサイエンスを促進するため、ソースコード、ハイパーパラメータ設定、事前トレーニングされたモデルは、https://github.com/LS4GAN/uvcga.comで利用可能になる。

関連論文リスト

Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文参考訳（メタデータ） (2025-03-07T10:34:04Z)
Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文参考訳（メタデータ） (2024-03-28T22:25:05Z)
In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文参考訳（メタデータ） (2023-09-25T08:42:06Z)
Semantic Image Synthesis with Semantically Coupled VQ-Model [42.19799555533789]
本稿では,ベクトル量子化モデル (VQ-model) から遅延空間を条件付きで合成する。本モデルは,ADE20k,Cityscapes,COCO-Stuffといった人気セマンティック画像データセットを用いた自己回帰モデルを用いて,セマンティック画像合成を改善することを示す。
論文参考訳（メタデータ） (2022-09-06T14:37:01Z)
Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。 ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文参考訳（メタデータ） (2021-10-09T18:36:00Z)
Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文参考訳（メタデータ） (2021-08-03T08:38:16Z)
ViTGAN: Training GANs with Vision Transformers [46.769407314698434]
視覚変換器(ViT)は、視覚固有の誘導バイアスを少なくしながら、画像認識に競争力を発揮している。 ViTを用いたGANのトレーニングのための新しい正規化手法をいくつか紹介する。我々のアプローチはViTGANと呼ばれ、3つのデータセット上の主要なCNNベースのGANモデルに匹敵する性能を実現している。
論文参考訳（メタデータ） (2021-07-09T17:59:30Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)
You Only Need Adversarial Supervision for Semantic Image Synthesis [84.83711654797342]
我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
論文参考訳（メタデータ） (2020-12-08T23:00:48Z)
Incorporating Reinforced Adversarial Learning in Autoregressive Image Generation [39.55651747758391]
本稿では,自己回帰モデルに対するポリシー勾配最適化に基づく強化適応学習(RAL)を提案する。 RALはまた、VQ-VAEフレームワークの異なるモジュール間のコラボレーションを強化する。提案手法は,64$times$64画像解像度でCelebaの最先端結果を実現する。
論文参考訳（メタデータ） (2020-07-20T08:10:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。