論文の概要: Scalable GANs with Transformers
- arxiv url: http://arxiv.org/abs/2509.24935v1
- Date: Mon, 29 Sep 2025 15:36:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.097852
- Title: Scalable GANs with Transformers
- Title(参考訳): トランスフォーマーを備えたスケーラブルなGAN
- Authors: Sangeek Hyun, MinKyu Lee, Jae-Pil Heo,
- Abstract要約: スケーラビリティはジェネレーティブモデリングの最近の進歩を駆り立ててきたが、その原理は相変わらず敵対的な学習のために探求されている。
本稿では,GAN(Generative Adversarial Networks)のスケーラビリティを2つの設計選択により検討する。
ネットワーク規模が拡大するにつれて、ジェネレータの初期レイヤの未利用や最適化の不安定性が問題となる。
- 参考スコア(独自算出の注目度): 41.13613492946196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scalability has driven recent advances in generative modeling, yet its principles remain underexplored for adversarial learning. We investigate the scalability of Generative Adversarial Networks (GANs) through two design choices that have proven to be effective in other types of generative models: training in a compact Variational Autoencoder latent space and adopting purely transformer-based generators and discriminators. Training in latent space enables efficient computation while preserving perceptual fidelity, and this efficiency pairs naturally with plain transformers, whose performance scales with computational budget. Building on these choices, we analyze failure modes that emerge when naively scaling GANs. Specifically, we find issues as underutilization of early layers in the generator and optimization instability as the network scales. Accordingly, we provide simple and scale-friendly solutions as lightweight intermediate supervision and width-aware learning-rate adjustment. Our experiments show that GAT, a purely transformer-based and latent-space GANs, can be easily trained reliably across a wide range of capacities (S through XL). Moreover, GAT-XL/2 achieves state-of-the-art single-step, class-conditional generation performance (FID of 2.96) on ImageNet-256 in just 40 epochs, 6x fewer epochs than strong baselines.
- Abstract(参考訳): スケーラビリティはジェネレーティブモデリングの最近の進歩を駆り立ててきたが、その原理は相変わらず敵対的な学習のために探求されている。
本稿では,GAN(Generative Adversarial Networks)のスケーラビリティを,コンパクトな変分オートエンコーダ潜在空間でのトレーニングと,純粋にトランスフォーマーベースのジェネレータと識別器の採用という,他の種類の生成モデルに有効であることが証明された2つの設計選択を通じて検討する。
潜在空間でのトレーニングは知覚の忠実さを保ちながら効率的な計算を可能にし、この効率は計算予算に匹敵する性能を持つ平らなトランスフォーマーと自然にペアリングする。
これらの選択に基づいて、私たちは、GANをネイティブにスケーリングするときに現れる障害モードを分析します。
具体的には,ネットワーク規模が拡大するにつれて,ジェネレータの初期レイヤの非活用や最適化の不安定性が問題となる。
そこで我々は,軽量な中間監督と幅対応学習率調整として,シンプルでスケールしやすいソリューションを提供する。
実験の結果,純粋なトランスフォーマーベースで潜在空間のGANであるGATは,幅広い容量(SからXL)で容易に確実に訓練できることがわかった。
さらに、GAT-XL/2はImageNet-256上での最先端の単一ステップのクラス条件生成性能(FID:FID of 2.96)を40エポックで達成し、強いベースラインの6倍のエポックで達成している。
関連論文リスト
- Chain-of-Thought Enhanced Shallow Transformers for Wireless Symbol Detection [14.363929799618283]
無線シンボル検出のためのCoT拡張浅層変圧器フレームワークCHOOSE(CHain Of thOught Symbol dEtection)を提案する。
隠れ空間内に自己回帰潜在推論ステップを導入することで、CHOOSEは浅いモデルの推論能力を大幅に改善する。
実験により,本手法は従来の浅層変圧器よりも優れ,深部変圧器に匹敵する性能が得られることが示された。
論文 参考訳(メタデータ) (2025-06-26T08:41:45Z) - Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。
C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。
これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2024-09-16T17:54:51Z) - Efficient generative adversarial networks using linear additive-attention Transformers [0.8287206589886879]
本稿では,Ladaformer という線形アテンショントランスフォーマーブロックに基づく新しい GAN アーキテクチャを提案する。
LadaGANは、さまざまな解像度のベンチマークデータセットにおいて、既存の畳み込みGANとTransformer GANを一貫して上回る。
LadaGANは、最先端のマルチステップ生成モデルと比較して、競争性能を示している。
論文 参考訳(メタデータ) (2024-01-17T21:08:41Z) - The Nuts and Bolts of Adopting Transformer in GANs [124.30856952272913]
高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。
我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
論文 参考訳(メタデータ) (2021-10-25T17:01:29Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。