論文の概要: Efficient Image Generation with Variadic Attention Heads
- arxiv url: http://arxiv.org/abs/2211.05770v3
- Date: Thu, 26 Jun 2025 05:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.729891
- Title: Efficient Image Generation with Variadic Attention Heads
- Title(参考訳): Variadic Attention Headを用いた高能率画像生成
- Authors: Steven Walton, Ali Hassani, Xingqian Xu, Zhangyang Wang, Humphrey Shi,
- Abstract要約: 単変圧器のアテンションヘッドが複数の受容場に到達できるようにするための,単純かつ強力な手法を提案する。
筆者らは、近隣意識(NA)を利用して画像を生成するためのStyleGANベースのアーキテクチャに組み込む手法を実証した。
StyleNATと呼ばれるこの作業により、FFHQで2.05のFIDを達成することができ、StyleGAN-XLよりも6%改善されています。
- 参考スコア(独自算出の注目度): 66.9694645123474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the integration of transformers in vision models have yielded significant improvements on vision tasks they still require significant amounts of computation for both training and inference. Restricted attention mechanisms significantly reduce these computational burdens but come at the cost of losing either global or local coherence. We propose a simple, yet powerful method to reduce these trade-offs: allow the attention heads of a single transformer to attend to multiple receptive fields. We demonstrate our method utilizing Neighborhood Attention (NA) and integrate it into a StyleGAN based architecture for image generation. With this work, dubbed StyleNAT, we are able to achieve a FID of 2.05 on FFHQ, a 6% improvement over StyleGAN-XL, while utilizing 28% fewer parameters and with 4$\times$ the throughput capacity. StyleNAT achieves the Pareto Frontier on FFHQ-256 and demonstrates powerful and efficient image generation on other datasets. Our code and model checkpoints are publicly available at: https://github.com/SHI-Labs/StyleNAT
- Abstract(参考訳): 視覚モデルへの変換器の統合は、視覚タスクに大きな改善をもたらしたが、トレーニングと推論の両方にかなりの量の計算が必要である。
制限された注意機構は、これらの計算負担を大幅に削減するが、グローバルまたはローカルコヒーレンスを失うコストがかかる。
単一変圧器のアテンションヘッドが複数の受容場に到達できるようにすることにより,これらのトレードオフを低減できる簡易かつ強力な手法を提案する。
筆者らは、近隣意識(NA)を利用して画像を生成するためのStyleGANベースのアーキテクチャに組み込む手法を実証した。
StyleNATと呼ばれるこの研究により、FFHQ上で2.05のFIDを達成することができ、StyleGAN-XLよりも6%改善され、パラメータは28%少なく、スループット容量は4$\times$である。
StyleNATはFFHQ-256上でPareto Frontierを実現し、他のデータセット上で強力で効率的な画像生成を実証する。
私たちのコードとモデルチェックポイントは、https://github.com/SHI-Labs/StyleNATで公開されています。
関連論文リスト
- FlexDiT: Dynamic Token Density Control for Diffusion Transformer [31.799640242972373]
Diffusion Transformer (DiT)は、優れた生成性能を提供するが、計算上の要求に直面する。
我々は,空間次元と時間次元の両方でトークン密度を動的に適用するFlexDiTを提案する。
本実験はFlexDiTの有効性を実証し,FLOPの55%削減と推論速度の175%改善を実現した。
論文 参考訳(メタデータ) (2024-12-08T18:59:16Z) - EdgeNAT: Transformer for Efficient Edge Detection [2.34098299695111]
エンコーダとしてDiNATを用いた一段変圧器を用いたエッジ検出器EdgeNATを提案する。
複数のデータセットに対する実験により,RGB画像と深度画像の両方で最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-08-20T04:04:22Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - PointGPT: Auto-regressively Generative Pre-training from Point Clouds [45.488532108226565]
我々はGPTの概念を点雲に拡張する新しいアプローチであるPointGPTを提案する。
具体的には、変圧器モデルの事前訓練に対して、ポイントクラウド自動回帰生成タスクを提案する。
提案手法は,ModelNet40データセットで94.9%,ScanObjectNNデータセットで93.4%の分類精度を達成し,他のトランスフォーマーモデルよりも優れている。
論文 参考訳(メタデータ) (2023-05-19T07:39:04Z) - AdaPoinTr: Diverse Point Cloud Completion with Adaptive Geometry-Aware
Transformers [94.11915008006483]
本稿では,ポイントクラウドの完了をセット・ツー・セットの翻訳問題として再定義する手法を提案する。
我々は、ポイントクラウド補完のためにTransformerエンコーダデコーダアーキテクチャを採用したPoinTrと呼ばれる新しいモデルを設計する。
本手法は,PCNで6.53 CD,ShapeNet-55で0.81 CD,現実世界のKITTIで0.392 MMDを実現する。
論文 参考訳(メタデータ) (2023-01-11T16:14:12Z) - Megapixel Image Generation with Step-Unrolled Denoising Autoencoders [5.145313322824774]
本稿では,サンプルの解像度を高くする手法と,トレーニングとサンプリングの計算要求を低減させる手法の組み合わせを提案する。
例えば、ベクトル量子化GAN(VQ-GAN)、高レベルの損失 - しかし知覚的に重要 - 圧縮 - が可能なベクトル量子化(VQ)モデル、時間ガラストランスフォーマー、高スケールの自己アテンションモデル、非自己回帰(NAR)テキスト生成モデルであるステップ制御型デノイングオートエンコーダ(SUNDAE)などがある。
提案するフレームワークは,高解像度(1024×1024$)までスケールし,(高速で)トレーニングを行う。
論文 参考訳(メタデータ) (2022-06-24T15:47:42Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - Styleformer: Transformer based Generative Adversarial Networks with
Style Vector [5.025654873456756]
StyleformerはGANアーキテクチャ用のスタイルベースのジェネレータであるが、畳み込みのないトランスフォーマーベースのジェネレータである。
コンボリューション演算が画像のグローバルな特徴を捉えるのが難しいという欠点を克服して、トランスフォーマーが高品質な画像を生成する方法を示す。
論文 参考訳(メタデータ) (2021-06-13T15:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。