論文の概要: SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers
- arxiv url: http://arxiv.org/abs/2401.08740v2
- Date: Mon, 23 Sep 2024 15:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 05:17:12.053663
- Title: SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers
- Title(参考訳): SiT: スケーラブル補間変換器を用いた流れと拡散に基づく生成モデル探索
- Authors: Nanye Ma, Mark Goldstein, Michael S. Albergo, Nicholas M. Boffi, Eric Vanden-Eijnden, Saining Xie,
- Abstract要約: Diffusion Transformers (DiT) のバックボーン上に構築された生成モデル
補間フレームワークは、2つの分布を標準拡散モデルよりも柔軟な方法で接続することができる。
SiT は条件付き ImageNet 256x256 と 512x512 ベンチマークで DiT を均一に上回っている。
- 参考スコア(独自算出の注目度): 33.15117998855855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Scalable Interpolant Transformers (SiT), a family of generative models built on the backbone of Diffusion Transformers (DiT). The interpolant framework, which allows for connecting two distributions in a more flexible way than standard diffusion models, makes possible a modular study of various design choices impacting generative models built on dynamical transport: learning in discrete or continuous time, the objective function, the interpolant that connects the distributions, and deterministic or stochastic sampling. By carefully introducing the above ingredients, SiT surpasses DiT uniformly across model sizes on the conditional ImageNet 256x256 and 512x512 benchmark using the exact same model structure, number of parameters, and GFLOPs. By exploring various diffusion coefficients, which can be tuned separately from learning, SiT achieves an FID-50K score of 2.06 and 2.62, respectively.
- Abstract(参考訳): 本稿では,Diffusion Transformers (DiT) のバックボーン上に構築された生成モデルのファミリーである Scalable Interpolant Transformers (SiT) について述べる。
2つの分布を標準拡散モデルよりも柔軟な方法で接続できる補間フレームワークは、動的輸送上に構築された生成モデルに影響を及ぼす様々な設計選択のモジュラー研究を可能にする:離散的または連続的な時間学習、目的関数、分布を接続する補間子、決定的または確率的サンプリング。
上記の成分を慎重に導入することにより、SiT は条件付き ImageNet 256x256 と 512x512 ベンチマークのモデルサイズで DiT を均一に上回り、全く同じモデル構造、パラメータ数、GFLOP を使用する。
学習とは別に調整できる様々な拡散係数を探索することにより、SiTはFID-50Kスコア2.06と2.62をそれぞれ達成する。
関連論文リスト
- One-Step Diffusion Distillation through Score Implicit Matching [74.91234358410281]
本稿では,Score Implicit Matching (SIM) を用いて,事前学習した拡散モデルを単一ステップジェネレータモデルに蒸留する手法を提案する。
SIMはワンステップジェネレータに対して強い経験的性能を示す。
リードトランスに基づく拡散モデルにSIMを適用することにより,テキスト・ツー・イメージ生成のための単一ステップ生成器を蒸留する。
論文 参考訳(メタデータ) (2024-10-22T08:17:20Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Local Flow Matching Generative Models [19.859984725284896]
フローマッチング(英: Flow Matching, FM)は、2つの分布を補間する連続的かつ非可逆的な流れを学習するためのシミュレーション不要な手法である。
FMサブモデルのシーケンスを学習し,それぞれがデータ-雑音方向のステップサイズまで拡散過程と一致するローカルフローマッチング(LFM)を導入する。
実験では, FMと比較して, LFMの訓練効率と競争的生成性能の改善を実証した。
論文 参考訳(メタデータ) (2024-10-03T14:53:10Z) - TerDiT: Ternary Diffusion Models with Transformers [83.94829676057692]
TerDiTは変圧器を用いた3次拡散モデルのための量子化対応トレーニングスキームである。
我々は、DiTネットワークの3元化とスケールモデルサイズを600Mから4.2Bに焦点をあてる。
論文 参考訳(メタデータ) (2024-05-23T17:57:24Z) - Diffscaler: Enhancing the Generative Prowess of Diffusion Transformers [34.611309081801345]
本稿では,1つの事前学習拡散変圧器モデルにより,複数のデータセットを高速にスケールできるようにすることに焦点をあてる。
DiffScalerは拡散モデルの効率的なスケーリング戦略であり、異なるタスクに適応するために最小限のパラメータを訓練する。
変換器に基づく拡散モデルは,より小さなデータセットに対して微調整を行いながら,CNNに基づく拡散モデルよりも大幅に優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-15T17:55:43Z) - Synaptogen: A cross-domain generative device model for large-scale neuromorphic circuit design [1.704443882665726]
実世界のデバイスの複雑な統計特性を再現する抵抗記憶のための高速な生成モデリング手法を提案する。
統合された1T1Rアレイの広範な測定データをトレーニングすることにより、自己回帰プロセスはパラメータ間の相互相関を正確に考慮する。
ベンチマークでは、この統計的に包括的なモデルがスループットを、さらに単純化され決定論的にコンパクトなモデルよりも上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-09T14:33:03Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - DiffFlow: A Unified SDE Framework for Score-Based Diffusion Models and
Generative Adversarial Networks [41.451880167535776]
我々は、明示的生成モデル(SDM)と生成逆数ネット(GAN)のための統一的理論フレームワークを提案する。
統合理論フレームワークでは,GAN や SDM 以外の新しいアルゴリズムを精度の高い推定で提供する DiffFLow のインスタンス化がいくつか導入されている。
論文 参考訳(メタデータ) (2023-07-05T10:00:53Z) - Scalable Diffusion Models with Transformers [18.903245758902834]
画像の潜時拡散モデルを訓練し、一般的に使用されるU-Netバックボーンを潜時パッチで動作するトランスフォーマーに置き換える。
変換器の深さ/幅の増大や入力トークンの数の増加などにより、より高いGflopsを持つDiTは、一貫して低いFIDを持つ。
論文 参考訳(メタデータ) (2022-12-19T18:59:58Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。