論文の概要: StyleNAT: Giving Each Head a New Perspective
- arxiv url: http://arxiv.org/abs/2211.05770v1
- Date: Thu, 10 Nov 2022 18:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 14:10:13.063605
- Title: StyleNAT: Giving Each Head a New Perspective
- Title(参考訳): StyleNAT: それぞれのヘッドに新たな視点を与える
- Authors: Steven Walton, Ali Hassani, Xingqian Xu, Zhangyang Wang, Humphrey Shi
- Abstract要約: 高い効率と柔軟性を備えた高品質な画像生成をターゲットとした,StyleNATと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
私たちのモデルの中核となるのは、ローカルおよびグローバルな情報を捉えるために注意を分割する、慎重に設計されたフレームワークです。
StyleNATはFFHQ-256で新たなSOTA FIDスコアを2.046で獲得し、StyleGAN-XLやHITやStyleSwinといったトランスフォーマーのような畳み込みモデルで先行芸術を圧倒した。
- 参考スコア(独自算出の注目度): 75.50400829727712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image generation has been a long sought-after but challenging task, and
performing the generation task in an efficient manner is similarly difficult.
Often researchers attempt to create a "one size fits all" generator, where
there are few differences in the parameter space for drastically different
datasets. Herein, we present a new transformer-based framework, dubbed
StyleNAT, targeting high-quality image generation with superior efficiency and
flexibility. At the core of our model, is a carefully designed framework that
partitions attention heads to capture local and global information, which is
achieved through using Neighborhood Attention (NA). With different heads able
to pay attention to varying receptive fields, the model is able to better
combine this information, and adapt, in a highly flexible manner, to the data
at hand. StyleNAT attains a new SOTA FID score on FFHQ-256 with 2.046, beating
prior arts with convolutional models such as StyleGAN-XL and transformers such
as HIT and StyleSwin, and a new transformer SOTA on FFHQ-1024 with an FID score
of 4.174. These results show a 6.4% improvement on FFHQ-256 scores when
compared to StyleGAN-XL with a 28% reduction in the number of parameters and
56% improvement in sampling throughput. Code and models will be open-sourced at
https://github.com/SHI-Labs/StyleNAT .
- Abstract(参考訳): 画像生成は長く追求されてきたが困難な課題であり、効率的な生成タスクの実行も同様に困難である。
多くの場合、研究者は"one size fits all"ジェネレータを作成しようとするが、パラメータ空間には劇的に異なるデータセットの差がほとんどない。
本稿では,優れた効率と柔軟性を備えた高品質画像生成を目的とした,新しいトランスフォーマティブベースのフレームワークstylenatを提案する。
我々のモデルの中核となるのは、注意を分割して局所的およびグローバルな情報をキャプチャする、慎重に設計されたフレームワークであり、これは、Neighborhood Attention (NA)を使用して達成される。
異なる頭部が様々な受容領域に注意を払っているため、モデルはこれらの情報をよりうまく組み合わせ、非常に柔軟な方法で、手元にあるデータに適応することができる。
StyleNATはFFHQ-256で2.046で新しいSOTA FIDスコアを獲得し、StyleGAN-XLやHITやStyleSwinなどの変圧器、FFHQ-1024で新しいSOTAのFIDスコアが4.174である。
これらの結果から,ffhq-256はパラメータ数28%,サンプリングスループットは56%改善し,s stylegan-xlと比較すると6.4%改善した。
コードとモデルはhttps://github.com/SHI-Labs/StyleNATでオープンソース化される。
関連論文リスト
- DiffiT: Diffusion Vision Transformers for Image Generation [94.50195596375316]
Diffusion Vision Transformers (DiffiT) はU字型エンコーダとデコーダを備えたハイブリッド階層アーキテクチャである。
DiffiTは、高忠実度画像を生成するのに驚くほど効果的です。
潜在領域では、DiffiTはImageNet-256データセットで1.73の新しいSOTA FIDスコアを達成している。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - PointGPT: Auto-regressively Generative Pre-training from Point Clouds [45.488532108226565]
我々はGPTの概念を点雲に拡張する新しいアプローチであるPointGPTを提案する。
具体的には、変圧器モデルの事前訓練に対して、ポイントクラウド自動回帰生成タスクを提案する。
提案手法は,ModelNet40データセットで94.9%,ScanObjectNNデータセットで93.4%の分類精度を達成し,他のトランスフォーマーモデルよりも優れている。
論文 参考訳(メタデータ) (2023-05-19T07:39:04Z) - AdaPoinTr: Diverse Point Cloud Completion with Adaptive Geometry-Aware
Transformers [94.11915008006483]
本稿では,ポイントクラウドの完了をセット・ツー・セットの翻訳問題として再定義する手法を提案する。
我々は、ポイントクラウド補完のためにTransformerエンコーダデコーダアーキテクチャを採用したPoinTrと呼ばれる新しいモデルを設計する。
本手法は,PCNで6.53 CD,ShapeNet-55で0.81 CD,現実世界のKITTIで0.392 MMDを実現する。
論文 参考訳(メタデータ) (2023-01-11T16:14:12Z) - Megapixel Image Generation with Step-Unrolled Denoising Autoencoders [5.145313322824774]
本稿では,サンプルの解像度を高くする手法と,トレーニングとサンプリングの計算要求を低減させる手法の組み合わせを提案する。
例えば、ベクトル量子化GAN(VQ-GAN)、高レベルの損失 - しかし知覚的に重要 - 圧縮 - が可能なベクトル量子化(VQ)モデル、時間ガラストランスフォーマー、高スケールの自己アテンションモデル、非自己回帰(NAR)テキスト生成モデルであるステップ制御型デノイングオートエンコーダ(SUNDAE)などがある。
提案するフレームワークは,高解像度(1024×1024$)までスケールし,(高速で)トレーニングを行う。
論文 参考訳(メタデータ) (2022-06-24T15:47:42Z) - StyleSwin: Transformer-based GAN for High-resolution Image Generation [28.703687511694305]
我々は,高分解能画像合成のための生成的対向ネットワークを構築するために,純粋なトランスフォーマーを用いて探究する。
提案されたジェネレータはスタイルベースのアーキテクチャでSwingトランスフォーマーを採用する。
ウィンドウベースの変圧器で失われた絶対位置の知識を提供することは、生成品質に大きな恩恵をもたらすことを示す。
論文 参考訳(メタデータ) (2021-12-20T18:59:51Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Styleformer: Transformer based Generative Adversarial Networks with
Style Vector [5.025654873456756]
StyleformerはGANアーキテクチャ用のスタイルベースのジェネレータであるが、畳み込みのないトランスフォーマーベースのジェネレータである。
コンボリューション演算が画像のグローバルな特徴を捉えるのが難しいという欠点を克服して、トランスフォーマーが高品質な画像を生成する方法を示す。
論文 参考訳(メタデータ) (2021-06-13T15:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。