論文の概要: Efficient generative adversarial networks using linear additive-attention Transformers
- arxiv url: http://arxiv.org/abs/2401.09596v4
- Date: Sat, 16 Nov 2024 06:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:32.795140
- Title: Efficient generative adversarial networks using linear additive-attention Transformers
- Title(参考訳): 線形加算アテンション変換器を用いた高効率生成対向ネットワーク
- Authors: Emilio Morales-Juarez, Gibran Fuentes-Pineda,
- Abstract要約: 本稿では,Ladaformer という線形アテンショントランスフォーマーブロックに基づく新しい GAN アーキテクチャを提案する。
LadaGANは、さまざまな解像度のベンチマークデータセットにおいて、既存の畳み込みGANとTransformer GANを一貫して上回る。
LadaGANは、最先端のマルチステップ生成モデルと比較して、競争性能を示している。
- 参考スコア(独自算出の注目度): 0.8287206589886879
- License:
- Abstract: Although the capacity of deep generative models for image generation, such as Diffusion Models (DMs) and Generative Adversarial Networks (GANs), has dramatically improved in recent years, much of their success can be attributed to computationally expensive architectures. This has limited their adoption and use to research laboratories and companies with large resources, while significantly raising the carbon footprint for training, fine-tuning, and inference. In this work, we present a novel GAN architecture which we call LadaGAN. This architecture is based on a linear attention Transformer block named Ladaformer. The main component of this block is a linear additive-attention mechanism that computes a single attention vector per head instead of the quadratic dot-product attention. We employ Ladaformer in both the generator and discriminator, which reduces the computational complexity and overcomes the training instabilities often associated with Transformer GANs. LadaGAN consistently outperforms existing convolutional and Transformer GANs on benchmark datasets at different resolutions while being significantly more efficient. Moreover, LadaGAN shows competitive performance compared to state-of-the-art multi-step generative models (e.g. DMs) using orders of magnitude less computational resources.
- Abstract(参考訳): 拡散モデル (DM) やGAN (Generative Adversarial Networks) のような画像生成のための深層生成モデルの能力は近年劇的に向上しているが、その成功の多くは計算コストの高いアーキテクチャによるものである。
これにより、大規模な資源を持つ研究所や企業への採用や利用が制限され、トレーニング、微調整、推論のための炭素フットプリントが著しく高められた。
本稿では,LadaGAN と呼ばれる新しい GAN アーキテクチャを提案する。
このアーキテクチャは、Ladaformerという名前の線形アテンショントランスフォーマーブロックに基づいている。
このブロックの主成分は、二次的なドット積の注意ではなく、頭部あたりの1つの注意ベクトルを計算する線形加法アテンション機構である。
生成器と識別器の両方にLadaformerを使用し、計算複雑性を低減し、Transformer GANに関連するトレーニングの不安定さを克服する。
LadaGANは、異なる解像度のベンチマークデータセットにおいて、既存の畳み込みとトランスフォーマーGANをはるかに効率よく、一貫して上回っている。
さらに、LadaGANは最先端のマルチステップ生成モデル(例えばDM)と比較して、桁違いの少ない計算資源を用いた競合性能を示す。
関連論文リスト
- Revisiting Non-Autoregressive Transformers for Efficient Image Synthesis [82.72941975704374]
非自己回帰変換器(NAT)は、その急速な世代で認識されている。
トレーニング戦略と推論戦略の設計を再考することにより、NATの潜在能力を再評価する。
自動フレームワークで最適な戦略を直接解き、既存の手法を超えることを提案する。
論文 参考訳(メタデータ) (2024-06-08T13:52:20Z) - HMANet: Hybrid Multi-Axis Aggregation Network for Image Super-Resolution [6.7341750484636975]
トランスフォーマーベースのネットワークは、限られた空間範囲からの入力情報しか利用できない。
本稿では,Hybrid Multi-Axis Aggregation Network (HMA)を提案する。
実験の結果,HMAはベンチマークデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-05-08T12:14:34Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Exploring the Performance and Efficiency of Transformer Models for NLP
on Mobile Devices [3.809702129519641]
新しいディープニューラルネットワーク(DNN)アーキテクチャとアプローチが数年毎に登場し、この分野の進歩が加速している。
トランスフォーマーは、AIタスク全体で新しいレベルの精度を達成した比較的新しいモデルファミリである。
この作業は、Transformersのオンデバイス実行の現在の状態を調べて、このギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2023-06-20T10:15:01Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Generative Cooperative Networks for Natural Language Generation [25.090455367573988]
本稿では,リアルテキストのサンプルを出力する生成ポリシーとともに,識別器アーキテクチャを協調的に使用する生成協調ネットワークについて紹介する。
我々は,提案手法の収束を理論的に保証し,2つの主要なNLGタスクにおいて,最先端の成果を実証的に達成するための様々な効率的な復号化手法について検討する。
論文 参考訳(メタデータ) (2022-01-28T18:36:57Z) - The Nuts and Bolts of Adopting Transformer in GANs [124.30856952272913]
高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。
我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
論文 参考訳(メタデータ) (2021-10-25T17:01:29Z) - Combining Transformer Generators with Convolutional Discriminators [9.83490307808789]
最近提案されたTransGANはトランスフォーマーアーキテクチャのみを使用した最初のGANである。
TransGANは、データ拡張、トレーニング中の補助的な超解像タスク、そして自己保持メカニズムを導く前にマスクを必要とする。
我々は、よく知られたCNN識別器のベンチマークを行い、トランスフォーマーベースジェネレータのサイズを減らし、両方のアーキテクチャ要素をハイブリッドモデルに組み込むことにより、より良い結果をもたらすことを示す。
論文 参考訳(メタデータ) (2021-05-21T07:56:59Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Learning Efficient GANs for Image Translation via Differentiable Masks
and co-Attention Distillation [130.30465659190773]
Generative Adversarial Networks (GAN) は画像翻訳において広く利用されているが、その高い計算とストレージコストがモバイルデバイスへの展開を妨げる。
DMADと呼ばれる新しいGAN圧縮手法を提案する。
実験の結果、DMADはCycleGANのMultiply Accumulate Operations (MAC)を13倍、Pix2Pixを4倍削減し、フルモデルに匹敵する性能を維持することができた。
論文 参考訳(メタデータ) (2020-11-17T02:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。