論文の概要: Efficient-VQGAN: Towards High-Resolution Image Generation with Efficient
Vision Transformers
- arxiv url: http://arxiv.org/abs/2310.05400v1
- Date: Mon, 9 Oct 2023 04:38:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 07:40:14.768888
- Title: Efficient-VQGAN: Towards High-Resolution Image Generation with Efficient
Vision Transformers
- Title(参考訳): 能率VQGAN:高分解能画像生成に向けて
- Authors: Shiyue Cao, Yueqin Yin, Lianghua Huang, Yu Liu, Xin Zhao, Deli Zhao,
Kaiqi Huang
- Abstract要約: 本稿では,高解像度画像生成のためのより効率的な2段階フレームワークを提案する。
我々は,従来手法で用いたグローバルアテンション機構の代わりに,局所アテンションに基づく量子化モデルを用いる。
このアプローチは、より高速な生成速度、より高速な生成忠実度、解像度の向上をもたらす。
- 参考スコア(独自算出の注目度): 41.78970081787674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vector-quantized image modeling has shown great potential in synthesizing
high-quality images. However, generating high-resolution images remains a
challenging task due to the quadratic computational overhead of the
self-attention process. In this study, we seek to explore a more efficient
two-stage framework for high-resolution image generation with improvements in
the following three aspects. (1) Based on the observation that the first
quantization stage has solid local property, we employ a local attention-based
quantization model instead of the global attention mechanism used in previous
methods, leading to better efficiency and reconstruction quality. (2) We
emphasize the importance of multi-grained feature interaction during image
generation and introduce an efficient attention mechanism that combines global
attention (long-range semantic consistency within the whole image) and local
attention (fined-grained details). This approach results in faster generation
speed, higher generation fidelity, and improved resolution. (3) We propose a
new generation pipeline incorporating autoencoding training and autoregressive
generation strategy, demonstrating a better paradigm for image synthesis.
Extensive experiments demonstrate the superiority of our approach in
high-quality and high-resolution image reconstruction and generation.
- Abstract(参考訳): ベクトル量子化画像モデリングは高品質な画像の合成に大きな可能性を示している。
しかし,高分解能画像の生成は,自己着脱過程の2次計算オーバーヘッドのため,依然として困難な課題である。
本研究では,高分解能画像生成のためのより効率的な2段階フレームワークを探索し,以下の3つの側面を改善した。
1) 第1の量子化段階が固い局所特性を持つという観測に基づいて, 従来手法で用いたグローバルアテンション機構の代わりに, 局所アテンションに基づく量子化モデルを用いて, 効率と再現性を向上させる。
2)画像生成における多面的特徴の相互作用の重要性を強調し,全体的注意(画像全体における長期的意味的一貫性)と局所的注意(詳細情報)を組み合わせた効率的な注意機構を導入する。
このアプローチは、より高速な生成速度、より高速な生成忠実度、解像度の向上をもたらす。
3)画像合成のためのより良いパラダイムを示す,自動エンコーディング訓練と自己回帰生成戦略を組み込んだ新しい世代パイプラインを提案する。
広汎な実験は、高品質で高解像度の画像再構成と生成における我々のアプローチの優位性を実証している。
関連論文リスト
- HiTSR: A Hierarchical Transformer for Reference-based Super-Resolution [6.546896650921257]
参照ベース画像超解像のための階層変換モデルであるHiTSRを提案する。
GAN文献の二重注意ブロックを組み込むことで,アーキテクチャとトレーニングパイプラインの合理化を図る。
我々のモデルは、SUN80、Urban100、Manga109を含む3つのデータセットで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-08-30T01:16:29Z) - GECO: Generative Image-to-3D within a SECOnd [51.20830808525894]
本稿では,1秒以内に動作する高品質な3次元生成モデリング手法GECOを紹介する。
GECOは、前例のないレベルの効率で高品質な3Dメッシュ生成を実現する。
論文 参考訳(メタデータ) (2024-05-30T17:58:00Z) - TwinDiffusion: Enhancing Coherence and Efficiency in Panoramic Image Generation with Diffusion Models [3.167554518801207]
拡散モデルは、多種多様な高品質なコンテンツを生成する効果的なツールとして登場した。
目に見えるシームや一貫性のない遷移といった課題に直面している。
これらの課題に対処する最適化されたフレームワークであるTwinDiffusionを提案する。
論文 参考訳(メタデータ) (2024-04-30T11:43:37Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - ASSET: Autoregressive Semantic Scene Editing with Transformers at High
Resolutions [28.956280590967808]
私たちのアーキテクチャは、新しい注意機構を備えたトランスフォーマーに基づいています。
我々のキーとなる考え方は、高解像度の画像解像度で抽出された濃密な注意によって導かれる、トランスフォーマーの注意行列を高解像度でスパース化することである。
本手法の有効性を示した質的,定量的な結果とユーザスタディについて述べる。
論文 参考訳(メタデータ) (2022-05-24T17:39:53Z) - Robust Single Image Dehazing Based on Consistent and Contrast-Assisted
Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。
具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。
我々の手法は最先端のアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2022-03-29T08:11:04Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z) - DTGAN: Dual Attention Generative Adversarial Networks for Text-to-Image
Generation [8.26410341981427]
Dual Attention Generative Adversarial Network (DTGAN)は高品質でセマンティックな一貫性のある画像を合成できる。
提案モデルでは,テキスト関連チャネルや画素に注目するようにジェネレータを誘導する,チャネル対応および画素対応アテンションモジュールを導入している。
生成した画像の鮮明な形状と知覚的に均一な色分布を確保することにより、画像の解像度を高めるために、新しいタイプの視覚的損失を利用する。
論文 参考訳(メタデータ) (2020-11-05T08:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。