Fugu-MT 論文翻訳(概要): Scalable Diffusion Models with Transformers

論文の概要: Scalable Diffusion Models with Transformers

arxiv url: http://arxiv.org/abs/2212.09748v1
Date: Mon, 19 Dec 2022 18:59:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 15:37:19.566054
Title: Scalable Diffusion Models with Transformers
Title（参考訳）: トランスフォーマーを用いたスケーラブル拡散モデル
Authors: William Peebles, Saining Xie
Abstract要約: 画像の潜時拡散モデルを訓練し、一般的に使用されるU-Netバックボーンを潜時パッチで動作するトランスフォーマーに置き換える。変換器の深さ/幅の増大や入力トークンの数の増加などにより、より高いGflopsを持つDiTは、一貫して低いFIDを持つ。
参考スコア（独自算出の注目度）: 18.903245758902834
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We explore a new class of diffusion models based on the transformer architecture. We train latent diffusion models of images, replacing the commonly-used U-Net backbone with a transformer that operates on latent patches. We analyze the scalability of our Diffusion Transformers (DiTs) through the lens of forward pass complexity as measured by Gflops. We find that DiTs with higher Gflops -- through increased transformer depth/width or increased number of input tokens -- consistently have lower FID. In addition to possessing good scalability properties, our largest DiT-XL/2 models outperform all prior diffusion models on the class-conditional ImageNet 512x512 and 256x256 benchmarks, achieving a state-of-the-art FID of 2.27 on the latter.
Abstract（参考訳）: 本稿では,トランスアーキテクチャに基づく新しい拡散モデルについて検討する。画像の潜時拡散モデルを訓練し、一般的に使用されるU-Netバックボーンを潜時パッチで動作するトランスフォーマーに置き換える。我々はGflopsで測定した前方通過複雑性のレンズを通して拡散変換器(DiT)のスケーラビリティを解析する。変換器の深さ/幅の増大や入力トークンの数の増加などにより、より高いGflopsを持つDiTは、一貫して低いFIDを持つ。私たちの最大のdit-xl/2モデルは、優れたスケーラビリティ特性を持つだけでなく、クラス条件のimagenet 512x512と256x256ベンチマークのすべての以前の拡散モデルよりも優れています。

関連論文リスト

Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression [29.130512830927373]
本稿では,Autoregressive (AR) Transformerと拡散モデルを組み合わせた最初の画像生成モデルであるTransDiffを紹介する。 TransDiffはラベルと画像を高レベルのセマンティックな特徴にエンコードし、拡散モデルを用いて画像サンプルの分布を推定する。 ImageNet 256x256ベンチマークでは、TransDiffはスタンドアロンのARトランスフォーマーや拡散モデルに基づいて、他の画像生成モデルよりも大幅に優れている。
論文参考訳（メタデータ） (2025-06-11T07:50:31Z)
DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling [53.33281984430122]
Diffusion Transformer (DiT) は、視覚生成のための有望な拡散モデルであるが、計算オーバーヘッドが大きい。本稿では,効率的かつ表現力のある拡散モデルを構築するための代替ビルディングブロックとして,畳み込みを再考する。標準のConvNetモジュールから完全に構築された拡散モデルのファミリであるDiffusion ConvNet(DiCo)を紹介する。
論文参考訳（メタデータ） (2025-05-16T12:54:04Z)
TinyFusion: Diffusion Transformers Learned Shallow [52.96232442322824]
拡散変換器は画像生成において顕著な機能を示すが、しばしば過度なパラメータ化を伴う。本稿では,拡散変圧器の冗長層をエンド・ツー・エンド・ラーニングにより除去する深度切削法TinyFusionを提案する。 DiT-XLの実験では、TinyFusionはトレーニング前のコストの7%以下で浅い拡散変圧器を製造でき、FIDスコアが2.86で2$times$のスピードアップを達成した。
論文参考訳（メタデータ） (2024-12-02T07:05:39Z)
FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。 FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文参考訳（メタデータ） (2024-10-17T15:51:49Z)
Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。本研究では,動的拡散変換器 (DyDiT) を提案する。 3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文参考訳（メタデータ） (2024-10-04T14:14:28Z)
DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention [82.24166963631949]
Diffusion Gated Linear Attention Transformers (DiG) は、Diffusion Transformers (DiT) の設計に従って、最小限のパラメータオーバーヘッドを持つ単純で適用可能なソリューションである。 DiTよりも優れたパフォーマンスに加えて、DiG-S/2はDiT-S/2よりも2.5times$高いトレーニング速度を示し、メモリ解像度は75.7%$179times 1792$である。同じモデルサイズで、DIG-XL/2は最近のMambaベースの拡散モデルより4.2倍、解像度は1024ドルで、FlashAttention-2でDiTより1.8倍速い。
論文参考訳（メタデータ） (2024-05-28T17:59:33Z)
TerDiT: Ternary Diffusion Models with Transformers [83.94829676057692]
TerDiTは変圧器を用いた3次拡散モデルのための量子化対応トレーニングスキームである。我々は、DiTネットワークの3元化とスケールモデルサイズを600Mから4.2Bに焦点をあてる。
論文参考訳（メタデータ） (2024-05-23T17:57:24Z)
Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models [6.809572275782338]
我々は,変換器モデルによる前方及び後方信号のモーメントを管理する統一信号伝搬理論を開発し,公式を提供する。我々のフレームワークは、ハイアテンションスコアに関連する、消失/爆発の勾配、ランク崩壊、不安定性を理解し、緩和するために使用することができる。
論文参考訳（メタデータ） (2024-03-14T17:59:14Z)
Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass Diffusion Transformers [2.078423403798577]
画像生成モデルであるHourglass Diffusion Transformer (HDiT)を提案する。数十億のパラメータにスケールすることが知られているTransformerアーキテクチャに基づいて構築され、畳み込みU-Netの効率とTransformerのスケーラビリティのギャップを埋める。
論文参考訳（メタデータ） (2024-01-21T21:49:49Z)
SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers [33.15117998855855]
Diffusion Transformers (DiT) のバックボーン上に構築された生成モデル補間フレームワークは、2つの分布を標準拡散モデルよりも柔軟な方法で接続することができる。 SiT は条件付き ImageNet 256x256 と 512x512 ベンチマークで DiT を均一に上回っている。
論文参考訳（メタデータ） (2024-01-16T18:55:25Z)
DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。 DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文参考訳（メタデータ） (2023-12-04T18:57:01Z)
Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文参考訳（メタデータ） (2021-06-14T17:39:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。