論文の概要: StyleNAT: Giving Each Head a New Perspective
- arxiv url: http://arxiv.org/abs/2211.05770v1
- Date: Thu, 10 Nov 2022 18:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-11-11 14:10:13.063605
- Title: StyleNAT: Giving Each Head a New Perspective
- Title(参考訳): StyleNAT: それぞれのヘッドに新たな視点を与える
- Authors: Steven Walton, Ali Hassani, Xingqian Xu, Zhangyang Wang, Humphrey Shi
- Abstract要約: 高い効率と柔軟性を備えた高品質な画像生成をターゲットとした,StyleNATと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
私たちのモデルの中核となるのは、ローカルおよびグローバルな情報を捉えるために注意を分割する、慎重に設計されたフレームワークです。
StyleNATはFFHQ-256で新たなSOTA FIDスコアを2.046で獲得し、StyleGAN-XLやHITやStyleSwinといったトランスフォーマーのような畳み込みモデルで先行芸術を圧倒した。
- 参考スコア(独自算出の注目度): 75.50400829727712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image generation has been a long sought-after but challenging task, and
performing the generation task in an efficient manner is similarly difficult.
Often researchers attempt to create a "one size fits all" generator, where
there are few differences in the parameter space for drastically different
datasets. Herein, we present a new transformer-based framework, dubbed
StyleNAT, targeting high-quality image generation with superior efficiency and
flexibility. At the core of our model, is a carefully designed framework that
partitions attention heads to capture local and global information, which is
achieved through using Neighborhood Attention (NA). With different heads able
to pay attention to varying receptive fields, the model is able to better
combine this information, and adapt, in a highly flexible manner, to the data
at hand. StyleNAT attains a new SOTA FID score on FFHQ-256 with 2.046, beating
prior arts with convolutional models such as StyleGAN-XL and transformers such
as HIT and StyleSwin, and a new transformer SOTA on FFHQ-1024 with an FID score
of 4.174. These results show a 6.4% improvement on FFHQ-256 scores when
compared to StyleGAN-XL with a 28% reduction in the number of parameters and
56% improvement in sampling throughput. Code and models will be open-sourced at
https://github.com/SHI-Labs/StyleNAT .
- Abstract(参考訳): 画像生成は長く追求されてきたが困難な課題であり、効率的な生成タスクの実行も同様に困難である。
多くの場合、研究者は"one size fits all"ジェネレータを作成しようとするが、パラメータ空間には劇的に異なるデータセットの差がほとんどない。
本稿では,優れた効率と柔軟性を備えた高品質画像生成を目的とした,新しいトランスフォーマティブベースのフレームワークstylenatを提案する。
我々のモデルの中核となるのは、注意を分割して局所的およびグローバルな情報をキャプチャする、慎重に設計されたフレームワークであり、これは、Neighborhood Attention (NA)を使用して達成される。
異なる頭部が様々な受容領域に注意を払っているため、モデルはこれらの情報をよりうまく組み合わせ、非常に柔軟な方法で、手元にあるデータに適応することができる。
StyleNATはFFHQ-256で2.046で新しいSOTA FIDスコアを獲得し、StyleGAN-XLやHITやStyleSwinなどの変圧器、FFHQ-1024で新しいSOTAのFIDスコアが4.174である。
これらの結果から,ffhq-256はパラメータ数28%,サンプリングスループットは56%改善し,s stylegan-xlと比較すると6.4%改善した。
コードとモデルはhttps://github.com/SHI-Labs/StyleNATでオープンソース化される。
関連論文リスト
- S2AFormer: Strip Self-Attention for Efficient Vision Transformer [37.930090368513355]
Vision Transformer (ViT) はコンピュータビジョンにおいて大きな進歩を遂げた。
最近の手法は、より良いトレードオフを達成するために、畳み込みの強みと自己意識を組み合わせる。
SSA(Strip Self-Attention)を特徴とする効率的な視覚変換器アーキテクチャであるS2AFormerを提案する。
論文 参考訳(メタデータ) (2025-05-28T10:17:23Z) - FlexDiT: Dynamic Token Density Control for Diffusion Transformer [31.799640242972373]
Diffusion Transformer (DiT)は、優れた生成性能を提供するが、計算上の要求に直面する。
我々は,空間次元と時間次元の両方でトークン密度を動的に適用するFlexDiTを提案する。
本実験はFlexDiTの有効性を実証し,FLOPの55%削減と推論速度の175%改善を実現した。
論文 参考訳(メタデータ) (2024-12-08T18:59:16Z) - EdgeNAT: Transformer for Efficient Edge Detection [2.34098299695111]
エンコーダとしてDiNATを用いた一段変圧器を用いたエッジ検出器EdgeNATを提案する。
複数のデータセットに対する実験により,RGB画像と深度画像の両方で最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-08-20T04:04:22Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - Revisiting Non-Autoregressive Transformers for Efficient Image Synthesis [82.72941975704374]
非自己回帰変換器(NAT)は、その急速な世代で認識されている。
トレーニング戦略と推論戦略の設計を再考することにより、NATの潜在能力を再評価する。
自動フレームワークで最適な戦略を直接解き、既存の手法を超えることを提案する。
論文 参考訳(メタデータ) (2024-06-08T13:52:20Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - PointGPT: Auto-regressively Generative Pre-training from Point Clouds [45.488532108226565]
我々はGPTの概念を点雲に拡張する新しいアプローチであるPointGPTを提案する。
具体的には、変圧器モデルの事前訓練に対して、ポイントクラウド自動回帰生成タスクを提案する。
提案手法は,ModelNet40データセットで94.9%,ScanObjectNNデータセットで93.4%の分類精度を達成し,他のトランスフォーマーモデルよりも優れている。
論文 参考訳(メタデータ) (2023-05-19T07:39:04Z) - AdaPoinTr: Diverse Point Cloud Completion with Adaptive Geometry-Aware
Transformers [94.11915008006483]
本稿では,ポイントクラウドの完了をセット・ツー・セットの翻訳問題として再定義する手法を提案する。
我々は、ポイントクラウド補完のためにTransformerエンコーダデコーダアーキテクチャを採用したPoinTrと呼ばれる新しいモデルを設計する。
本手法は,PCNで6.53 CD,ShapeNet-55で0.81 CD,現実世界のKITTIで0.392 MMDを実現する。
論文 参考訳(メタデータ) (2023-01-11T16:14:12Z) - Megapixel Image Generation with Step-Unrolled Denoising Autoencoders [5.145313322824774]
本稿では,サンプルの解像度を高くする手法と,トレーニングとサンプリングの計算要求を低減させる手法の組み合わせを提案する。
例えば、ベクトル量子化GAN(VQ-GAN)、高レベルの損失 - しかし知覚的に重要 - 圧縮 - が可能なベクトル量子化(VQ)モデル、時間ガラストランスフォーマー、高スケールの自己アテンションモデル、非自己回帰(NAR)テキスト生成モデルであるステップ制御型デノイングオートエンコーダ(SUNDAE)などがある。
提案するフレームワークは,高解像度(1024×1024$)までスケールし,(高速で)トレーニングを行う。
論文 参考訳(メタデータ) (2022-06-24T15:47:42Z) - Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文 参考訳(メタデータ) (2022-05-26T17:34:42Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - StyleSwin: Transformer-based GAN for High-resolution Image Generation [28.703687511694305]
我々は,高分解能画像合成のための生成的対向ネットワークを構築するために,純粋なトランスフォーマーを用いて探究する。
提案されたジェネレータはスタイルベースのアーキテクチャでSwingトランスフォーマーを採用する。
ウィンドウベースの変圧器で失われた絶対位置の知識を提供することは、生成品質に大きな恩恵をもたらすことを示す。
論文 参考訳(メタデータ) (2021-12-20T18:59:51Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - Styleformer: Transformer based Generative Adversarial Networks with
Style Vector [5.025654873456756]
StyleformerはGANアーキテクチャ用のスタイルベースのジェネレータであるが、畳み込みのないトランスフォーマーベースのジェネレータである。
コンボリューション演算が画像のグローバルな特徴を捉えるのが難しいという欠点を克服して、トランスフォーマーが高品質な画像を生成する方法を示す。
論文 参考訳(メタデータ) (2021-06-13T15:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。