論文の概要: TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation
- arxiv url: http://arxiv.org/abs/2302.08047v1
- Date: Thu, 16 Feb 2023 03:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 15:22:48.873975
- Title: TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation
- Title(参考訳): TcGAN:高速任意1ショット画像生成のための個別視覚変換器を用いた意味認識と構造保存型GAN
- Authors: Yunliang Jiang, Lili Yan, Xiongtao Zhang, Yong Liu, Danfeng Sun
- Abstract要約: 画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
- 参考スコア(独自算出の注目度): 11.207512995742999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One-shot image generation (OSG) with generative adversarial networks that
learn from the internal patches of a given image has attracted world wide
attention. In recent studies, scholars have primarily focused on extracting
features of images from probabilistically distributed inputs with pure
convolutional neural networks (CNNs). However, it is quite difficult for CNNs
with limited receptive domain to extract and maintain the global structural
information. Therefore, in this paper, we propose a novel structure-preserved
method TcGAN with individual vision transformer to overcome the shortcomings of
the existing one-shot image generation methods. Specifically, TcGAN preserves
global structure of an image during training to be compatible with local
details while maintaining the integrity of semantic-aware information by
exploiting the powerful long-range dependencies modeling capability of the
transformer. We also propose a new scaling formula having scale-invariance
during the calculation period, which effectively improves the generated image
quality of the OSG model on image super-resolution tasks. We present the design
of the TcGAN converter framework, comprehensive experimental as well as
ablation studies demonstrating the ability of TcGAN to achieve arbitrary image
generation with the fastest running time. Lastly, TcGAN achieves the most
excellent performance in terms of applying it to other image processing tasks,
e.g., super-resolution as well as image harmonization, the results further
prove its superiority.
- Abstract(参考訳): 画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
最近の研究では、研究者は主に純粋畳み込みニューラルネットワーク(cnns)を用いた確率的分散入力から画像の特徴を抽出することに重点を置いている。
しかし, 受容領域が限定されたcnnでは, グローバル構造情報の抽出と維持が極めて困難である。
そこで本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
具体的には、TcGANは、トランスフォーマーの強力な長距離依存性モデリング機能を利用して、セマンティック認識情報の整合性を保ちながら、トレーニング中の画像のグローバルな構造を局所的な詳細に適合するように保存する。
また,画像超解像におけるOSGモデルの画質を効果的に向上させるため,計算期間中のスケール不変性を有する新しいスケーリング式を提案する。
本稿では、TcGANコンバータフレームワークの設計と、TcGANが高速な実行時間で任意の画像を生成する能力を示すアブレーション研究について述べる。
最後に、TcGANは、他の画像処理タスク(例えば、超解像度や画像調和など)に適用することで、最も優れた性能を達成し、その結果はその優位性をさらに証明する。
関連論文リスト
- Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。
我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。
提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文 参考訳(メタデータ) (2024-03-31T10:01:20Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - High-Quality Pluralistic Image Completion via Code Shared VQGAN [51.7805154545948]
高速な推論速度で高品質と多様性を両立させることができる多元画像補完のための新しい枠組みを提案する。
我々のフレームワークは、セマンティックにリッチな離散的なコードを効率的かつ堅牢に学習することができ、画像再構成の品質が大幅に向上する。
論文 参考訳(メタデータ) (2022-04-05T01:47:35Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - LT-GAN: Self-Supervised GAN with Latent Transformation Detection [10.405721171353195]
画像の生成品質と多様性を改善するための自己教師付きアプローチ(LT-GAN)を提案する。
我々は,提案するLT-GANが,他の最先端のトレーニング技術と効果的に組み合わせて,付加的なメリットを享受できることを実験的に実証した。
論文 参考訳(メタデータ) (2020-10-19T22:09:45Z) - Efficient texture-aware multi-GAN for image inpainting [5.33024001730262]
近年のGAN (Generative Adversarial Network) のインペイント手法は顕著に改善されている。
本稿では,性能とレンダリング効率の両方を改善するマルチGANアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-30T14:58:03Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。