論文の概要: Vit-GAN: Image-to-image Translation with Vision Transformes and
Conditional GANS
- arxiv url: http://arxiv.org/abs/2110.09305v1
- Date: Mon, 11 Oct 2021 18:09:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-24 03:41:16.339624
- Title: Vit-GAN: Image-to-image Translation with Vision Transformes and
Conditional GANS
- Title(参考訳): Vit-GAN:視覚変換と条件GANSによる画像間翻訳
- Authors: Yi\u{g}it G\"und\"u\c{c}
- Abstract要約: 本稿では,画像から画像への変換処理のほとんどを可能にする汎用アーキテクチャであるVit-Ganを開発した。
得られた結果は、一般的に使用されるアーキテクチャよりも現実的であることが観察された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we have developed a general-purpose architecture, Vit-Gan,
capable of performing most of the image-to-image translation tasks from
semantic image segmentation to single image depth perception. This paper is a
follow-up paper, an extension of generator-based model [1] in which the
obtained results were very promising. This opened the possibility of further
improvements with adversarial architecture. We used a unique vision
transformers-based generator architecture and Conditional GANs(cGANs) with a
Markovian Discriminator (PatchGAN) (https://github.com/YigitGunduc/vit-gan). In
the present work, we use images as conditioning arguments. It is observed that
the obtained results are more realistic than the commonly used architectures.
- Abstract(参考訳): 本稿では,意味的画像分割から単一の画像深度知覚まで,画像から画像への変換タスクのほとんどを実行できる汎用アーキテクチャvit-ganを開発した。
本論文は, 生成モデル[1]を拡張した追跡論文であり, 得られた結果は非常に有望であった。
これにより、敵アーキテクチャによるさらなる改善の可能性が開けた。
我々は、ユニークな視覚変換器ベースのジェネレータアーキテクチャと、Markovian Discriminator (PatchGAN) (https://github.com/YigitGunduc/vit-gan) を備えた条件付きGAN(cGAN)を使用した。
本研究では,コンディショニング引数として画像を用いる。
得られた結果は、一般的に使用されるアーキテクチャよりも現実的であることが観察されている。
関連論文リスト
- Mechanisms of Generative Image-to-Image Translation Networks [1.602820210496921]
本稿では,既存のモデルに比べてシンプルなアーキテクチャで,画像間翻訳ネットワークを提案する。
GANモデルに対する逆算は、余分な複雑な損失のペナルティを伴わない既存の手法に匹敵する結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-11-15T17:17:46Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - EGAIN: Extended GAn INversion [5.602947425285195]
GAN(Generative Adversarial Networks)は近年大きな進歩を遂げている。
近年のGANは、非絡み合った潜在空間の機能を符号化することが証明されている。
GANインバージョンは、実際の顔画像の顔意味論を操作するための扉を開く。
論文 参考訳(メタデータ) (2023-12-22T23:25:17Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Guided Image-to-Image Translation by Discriminator-Generator
Communication [71.86347329356244]
Image-to-image (I2I) 翻訳の目標は、ソースドメインからターゲットドメインに画像を転送することである。
本研究の主な分野は,GAN(Generative Adversarial Network)に基づくI2I翻訳の定式化である。
論文 参考訳(メタデータ) (2023-03-07T02:29:36Z) - GH-Feat: Learning Versatile Generative Hierarchical Features from GANs [61.208757845344074]
画像合成から学習した生成機能は、幅広いコンピュータビジョンタスクを解く上で大きな可能性を秘めていることを示す。
まず,事前学習したStyleGANジェネレータを学習損失関数として考慮し,エンコーダを訓練する。
GH-Feat(Generative Hierarchical Features)と呼ばれるエンコーダが生成する視覚的特徴は、階層的なGAN表現と高度に一致している。
論文 参考訳(メタデータ) (2023-01-12T21:59:46Z) - Text to Image Synthesis using Stacked Conditional Variational
Autoencoders and Conditional Generative Adversarial Networks [0.0]
現在のテキストから画像合成アプローチは、テキスト記述子を表す高解像度のイメージを生成できない。
本研究では、条件付きVAEを初期生成器として使用し、テキスト記述子の高レベルスケッチを生成する。
提案アーキテクチャは,条件付拡張と条件付きGANネットワーク上の残差ブロックの利点を生かし,その結果を得た。
論文 参考訳(メタデータ) (2022-07-06T13:43:56Z) - UVCGAN: UNet Vision Transformer cycle-consistent GAN for unpaired
image-to-image translation [7.998209482848582]
画像から画像への翻訳は、芸術、デザイン、科学シミュレーションに広く応用されている。
本研究は,視覚変換器(ViT)をCycleGANに装着し,GANトレーニング技術を用いてより優れた性能を実現するかを検討する。
論文 参考訳(メタデータ) (2022-03-04T20:27:16Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - One Model to Reconstruct Them All: A Novel Way to Use the Stochastic
Noise in StyleGAN [10.810541849249821]
本稿では,複数のデータ領域にまたがる非常に高品質な画像を再構成可能な,新しいスタイルGANベースのオートエンコーダアーキテクチャを提案する。
提案アーキテクチャでは,従来のアプローチの約28倍高速な単一GPU上で,毎秒40イメージを処理可能である。
論文 参考訳(メタデータ) (2020-10-21T16:24:07Z) - Image-to-image Mapping with Many Domains by Sparse Attribute Transfer [71.28847881318013]
教師なし画像と画像の変換は、2つの領域間の一対のマッピングを、ポイント間の既知のペアワイズ対応なしで学習することで構成される。
現在の慣例は、サイクル一貫性のあるGANでこのタスクにアプローチすることです。
そこで本研究では,ジェネレータを直接,潜在層における単純なスパース変換に制限する代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-23T19:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。