Fugu-MT 論文翻訳(概要): Efficient generative adversarial networks using linear additive-attention Transformers

論文の概要: Efficient generative adversarial networks using linear additive-attention Transformers

arxiv url: http://arxiv.org/abs/2401.09596v1
Date: Wed, 17 Jan 2024 21:08:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 18:33:15.589336
Title: Efficient generative adversarial networks using linear additive-attention Transformers
Title（参考訳）: 線形加算アテンション変換器を用いた高効率生成対向ネットワーク
Authors: Emilio Morales-Juarez and Gibran Fuentes-Pineda
Abstract要約: 本稿では,Ladaformerという新しいトランスフォーマーブロック上に構築した,効率的な生成対逆ネットワークであるLadaGANを提案する。 LadaGANは、さまざまな解像度のベンチマークデータセットにおいて、既存の畳み込みGANとTransformer GANを一貫して上回る。
参考スコア（独自算出の注目度）: 0.9790236766474198
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although the capacity of deep generative models for image generation, such as Diffusion Models (DMs) and Generative Adversarial Networks (GANs), has dramatically improved in recent years, much of their success can be attributed to computationally expensive architectures. This has limited their adoption and use to research laboratories and companies with large resources, while significantly raising the carbon footprint for training, fine-tuning, and inference. In this work, we present LadaGAN, an efficient generative adversarial network that is built upon a novel Transformer block named Ladaformer. The main component of this block is a linear additive-attention mechanism that computes a single attention vector per head instead of the quadratic dot-product attention. We employ Ladaformer in both the generator and discriminator, which reduces the computational complexity and overcomes the training instabilities often associated with Transformer GANs. LadaGAN consistently outperforms existing convolutional and Transformer GANs on benchmark datasets at different resolutions while being significantly more efficient. Moreover, LadaGAN shows competitive performance compared to state-of-the-art multi-step generative models (e.g. DMs) using orders of magnitude less computational resources.
Abstract（参考訳）: 拡散モデル (DM) やGAN (Generative Adversarial Networks) のような画像生成のための深層生成モデルの能力は近年劇的に向上しているが、その成功の多くは計算コストの高いアーキテクチャによるものである。これにより、大規模な資源を持つ研究所や企業への採用や利用が制限され、トレーニング、微調整、推論のための炭素フットプリントが著しく高まった。本稿では,Ladaformerという新しいトランスフォーマーブロック上に構築した,効率的な生成対向ネットワークであるLadaGANを提案する。このブロックの主成分は、二次的なドット積の注意ではなく、頭部あたりの1つの注意ベクトルを計算する線形加法アテンション機構である。生成器と識別器の両方にLadaformerを使用し、計算複雑性を低減し、Transformer GANに関連するトレーニング不安定性を克服する。 LadaGANは、さまざまな解像度のベンチマークデータセットにおいて、既存の畳み込みとトランスフォーマーGANよりもはるかに効率が良い。さらにladaganは、計算リソースを桁違いに減らすことで、最先端のマルチステップ生成モデル(dmsなど)と比較した競合性能を示している。

関連論文リスト

Plain Transformers are Surprisingly Powerful Link Predictors [57.01966734467712]
リンク予測はグラフ機械学習における中核的な課題であり、リッチで複雑なトポロジ的依存関係をキャプチャするモデルを必要とする。グラフニューラルネットワーク(GNN)が標準的なソリューションであるのに対して、最先端のパイプラインは明示的な構造やメモリ集約的なノードの埋め込みに依存していることが多い。本報告では,手作りのプリミティブに置き換えるエンコーダのみのプレーントランスであるPENCILについて,サンプリングしたローカルサブグラフに注目する。
論文参考訳（メタデータ） (2026-02-02T02:45:52Z)
LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。 LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文参考訳（メタデータ） (2026-01-30T06:44:33Z)
SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices [72.0937240883345]
拡散変圧器(DiT)の最近の進歩は、画像生成の新たな標準を定めているが、デバイス上での展開には実用的ではない。本稿では,厳密なリソース制約の下でトランスフォーマーレベルの生成品質を実現するモバイルおよびエッジデバイスに適した効率的なDiTフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-13T07:46:46Z)
KDC-Diff: A Latent-Aware Diffusion Model with Knowledge Retention for Memory-Efficient Image Generation [2.0250638970950905]
KDC-Diffは、ハイパフォーマンスを維持しながら計算オーバーヘッドを大幅に削減するために設計された、新しくスケーラブルな生成フレームワークである。本モデルでは,FID,CLIP,KID,LPIPSの指標に対して,パラメータ数,推論時間,FLOPの大幅な削減を実現し,高い性能を示す。
論文参考訳（メタデータ） (2025-05-11T14:40:51Z)
Unifying Dimensions: A Linear Adaptive Approach to Lightweight Image Super-Resolution [6.857919231112562]
ウィンドウベーストランスは超高解像度タスクにおいて優れた性能を示した。畳み込みニューラルネットワークよりも計算複雑性と推論レイテンシが高い。線形適応ミキサーネットワーク(LAMNet)という,畳み込みに基づくトランスフォーマーフレームワークを構築する。
論文参考訳（メタデータ） (2024-09-26T07:24:09Z)
Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。 C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文参考訳（メタデータ） (2024-09-16T17:54:51Z)
LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。蒸留したLinFusionは,元のSDと同等以上の性能を示す。 SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文参考訳（メタデータ） (2024-09-03T17:54:39Z)
HMANet: Hybrid Multi-Axis Aggregation Network for Image Super-Resolution [6.7341750484636975]
トランスフォーマーベースのネットワークは、限られた空間範囲からの入力情報しか利用できない。本稿では,Hybrid Multi-Axis Aggregation Network (HMA)を提案する。実験の結果,HMAはベンチマークデータセットの最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-05-08T12:14:34Z)
Efficient Heterogeneous Large Language Model Decoding with Model-Attention Disaggregation [15.35494431928751]
トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて顕著なパフォーマンスを示すと同時に、現実のサービスにおいて大きな課題をもたらす。 LLMデコーディングの効率を高めるために,モデルアテンションデアグリゲーションを導入する。分散ヘテロジニアスクラスタにモデルアテンションデアグリゲーションを組み込んだLLM推論システムであるLaminaを開発し,展開する。
論文参考訳（メタデータ） (2024-05-03T02:15:15Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
Robust representations of oil wells' intervals via sparse attention mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文参考訳（メタデータ） (2022-12-29T09:56:33Z)
Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。提案手法は1dB以上で最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2022-05-09T17:36:58Z)
Transformer Acceleration with Dynamic Sparse Attention [20.758709319088865]
本稿では,トランスフォーマーの注意における動的間隔を効果的に活用する動的スパース注意(DSA)を提案する。われわれのアプローチは、精度とモデルの複雑さのトレードオフを改善することができる。
論文参考訳（メタデータ） (2021-10-21T17:31:57Z)
Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文参考訳（メタデータ） (2021-07-01T17:58:16Z)
Combining Transformer Generators with Convolutional Discriminators [9.83490307808789]
最近提案されたTransGANはトランスフォーマーアーキテクチャのみを使用した最初のGANである。 TransGANは、データ拡張、トレーニング中の補助的な超解像タスク、そして自己保持メカニズムを導く前にマスクを必要とする。我々は、よく知られたCNN識別器のベンチマークを行い、トランスフォーマーベースジェネレータのサイズを減らし、両方のアーキテクチャ要素をハイブリッドモデルに組み込むことにより、より良い結果をもたらすことを示す。
論文参考訳（メタデータ） (2021-05-21T07:56:59Z)
Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文参考訳（メタデータ） (2021-04-20T00:09:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。