論文の概要: StyleNAT: Giving Each Head a New Perspective
- arxiv url: http://arxiv.org/abs/2211.05770v1
- Date: Thu, 10 Nov 2022 18:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 14:10:13.063605
- Title: StyleNAT: Giving Each Head a New Perspective
- Title(参考訳): StyleNAT: それぞれのヘッドに新たな視点を与える
- Authors: Steven Walton, Ali Hassani, Xingqian Xu, Zhangyang Wang, Humphrey Shi
- Abstract要約: 高い効率と柔軟性を備えた高品質な画像生成をターゲットとした,StyleNATと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
私たちのモデルの中核となるのは、ローカルおよびグローバルな情報を捉えるために注意を分割する、慎重に設計されたフレームワークです。
StyleNATはFFHQ-256で新たなSOTA FIDスコアを2.046で獲得し、StyleGAN-XLやHITやStyleSwinといったトランスフォーマーのような畳み込みモデルで先行芸術を圧倒した。
- 参考スコア(独自算出の注目度): 75.50400829727712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image generation has been a long sought-after but challenging task, and
performing the generation task in an efficient manner is similarly difficult.
Often researchers attempt to create a "one size fits all" generator, where
there are few differences in the parameter space for drastically different
datasets. Herein, we present a new transformer-based framework, dubbed
StyleNAT, targeting high-quality image generation with superior efficiency and
flexibility. At the core of our model, is a carefully designed framework that
partitions attention heads to capture local and global information, which is
achieved through using Neighborhood Attention (NA). With different heads able
to pay attention to varying receptive fields, the model is able to better
combine this information, and adapt, in a highly flexible manner, to the data
at hand. StyleNAT attains a new SOTA FID score on FFHQ-256 with 2.046, beating
prior arts with convolutional models such as StyleGAN-XL and transformers such
as HIT and StyleSwin, and a new transformer SOTA on FFHQ-1024 with an FID score
of 4.174. These results show a 6.4% improvement on FFHQ-256 scores when
compared to StyleGAN-XL with a 28% reduction in the number of parameters and
56% improvement in sampling throughput. Code and models will be open-sourced at
https://github.com/SHI-Labs/StyleNAT .
- Abstract(参考訳): 画像生成は長く追求されてきたが困難な課題であり、効率的な生成タスクの実行も同様に困難である。
多くの場合、研究者は"one size fits all"ジェネレータを作成しようとするが、パラメータ空間には劇的に異なるデータセットの差がほとんどない。
本稿では,優れた効率と柔軟性を備えた高品質画像生成を目的とした,新しいトランスフォーマティブベースのフレームワークstylenatを提案する。
我々のモデルの中核となるのは、注意を分割して局所的およびグローバルな情報をキャプチャする、慎重に設計されたフレームワークであり、これは、Neighborhood Attention (NA)を使用して達成される。
異なる頭部が様々な受容領域に注意を払っているため、モデルはこれらの情報をよりうまく組み合わせ、非常に柔軟な方法で、手元にあるデータに適応することができる。
StyleNATはFFHQ-256で2.046で新しいSOTA FIDスコアを獲得し、StyleGAN-XLやHITやStyleSwinなどの変圧器、FFHQ-1024で新しいSOTAのFIDスコアが4.174である。
これらの結果から,ffhq-256はパラメータ数28%,サンプリングスループットは56%改善し,s stylegan-xlと比較すると6.4%改善した。
コードとモデルはhttps://github.com/SHI-Labs/StyleNATでオープンソース化される。
関連論文リスト
- EdgeNAT: Transformer for Efficient Edge Detection [2.34098299695111]
エンコーダとしてDiNATを用いた一段変圧器を用いたエッジ検出器EdgeNATを提案する。
複数のデータセットに対する実験により,RGB画像と深度画像の両方で最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-08-20T04:04:22Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - PointGPT: Auto-regressively Generative Pre-training from Point Clouds [45.488532108226565]
我々はGPTの概念を点雲に拡張する新しいアプローチであるPointGPTを提案する。
具体的には、変圧器モデルの事前訓練に対して、ポイントクラウド自動回帰生成タスクを提案する。
提案手法は,ModelNet40データセットで94.9%,ScanObjectNNデータセットで93.4%の分類精度を達成し,他のトランスフォーマーモデルよりも優れている。
論文 参考訳(メタデータ) (2023-05-19T07:39:04Z) - AdaPoinTr: Diverse Point Cloud Completion with Adaptive Geometry-Aware
Transformers [94.11915008006483]
本稿では,ポイントクラウドの完了をセット・ツー・セットの翻訳問題として再定義する手法を提案する。
我々は、ポイントクラウド補完のためにTransformerエンコーダデコーダアーキテクチャを採用したPoinTrと呼ばれる新しいモデルを設計する。
本手法は,PCNで6.53 CD,ShapeNet-55で0.81 CD,現実世界のKITTIで0.392 MMDを実現する。
論文 参考訳(メタデータ) (2023-01-11T16:14:12Z) - Megapixel Image Generation with Step-Unrolled Denoising Autoencoders [5.145313322824774]
本稿では,サンプルの解像度を高くする手法と,トレーニングとサンプリングの計算要求を低減させる手法の組み合わせを提案する。
例えば、ベクトル量子化GAN(VQ-GAN)、高レベルの損失 - しかし知覚的に重要 - 圧縮 - が可能なベクトル量子化(VQ)モデル、時間ガラストランスフォーマー、高スケールの自己アテンションモデル、非自己回帰(NAR)テキスト生成モデルであるステップ制御型デノイングオートエンコーダ(SUNDAE)などがある。
提案するフレームワークは,高解像度(1024×1024$)までスケールし,(高速で)トレーニングを行う。
論文 参考訳(メタデータ) (2022-06-24T15:47:42Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - Styleformer: Transformer based Generative Adversarial Networks with
Style Vector [5.025654873456756]
StyleformerはGANアーキテクチャ用のスタイルベースのジェネレータであるが、畳み込みのないトランスフォーマーベースのジェネレータである。
コンボリューション演算が画像のグローバルな特徴を捉えるのが難しいという欠点を克服して、トランスフォーマーが高品質な画像を生成する方法を示す。
論文 参考訳(メタデータ) (2021-06-13T15:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。