論文の概要: FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute
- arxiv url: http://arxiv.org/abs/2502.20126v1
- Date: Thu, 27 Feb 2025 14:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:58:29.040970
- Title: FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute
- Title(参考訳): FlexiDiT: ディフュージョントランスフォーマーは、少ない計算で高品質なサンプルを容易に生成できる
- Authors: Sotiris Anagnostidis, Gregor Bachmann, Yeongmin Kim, Jonas Kohler, Markos Georgopoulos, Artsiom Sanakoyeu, Yuming Du, Albert Pumarola, Ali Thabet, Edgar Schönfeld,
- Abstract要約: 当社のフレームワークでは、事前トレーニングされたDiTモデルを、FlexiDiTと呼ばれる、屈曲可能なモデルに変換することが可能です。
本研究では,単一のエンフレキシブルモデルが画質の低下を伴わずに画像を生成する方法を示す。
我々は、FlexiDiTモデルが最大7,5$%の計算量でサンプルを生成するビデオ生成のために、我々のアプローチをどのように簡単に拡張できるかを示す。
- 参考スコア(独自算出の注目度): 25.151209708074134
- License:
- Abstract: Despite their remarkable performance, modern Diffusion Transformers are hindered by substantial resource requirements during inference, stemming from the fixed and large amount of compute needed for each denoising step. In this work, we revisit the conventional static paradigm that allocates a fixed compute budget per denoising iteration and propose a dynamic strategy instead. Our simple and sample-efficient framework enables pre-trained DiT models to be converted into \emph{flexible} ones -- dubbed FlexiDiT -- allowing them to process inputs at varying compute budgets. We demonstrate how a single \emph{flexible} model can generate images without any drop in quality, while reducing the required FLOPs by more than $40$\% compared to their static counterparts, for both class-conditioned and text-conditioned image generation. Our method is general and agnostic to input and conditioning modalities. We show how our approach can be readily extended for video generation, where FlexiDiT models generate samples with up to $75$\% less compute without compromising performance.
- Abstract(参考訳): その顕著な性能にもかかわらず、現代の拡散変換器は推論中にかなりのリソース要求に悩まされる。
本稿では,従来の静的なパラダイムを再検討し,反復ごとに固定された計算予算を割り当て,代わりに動的戦略を提案する。
当社のシンプルでサンプル効率のよいフレームワークは、事前訓練済みのDiTモデルを、FlexiDiTと呼ばれる「emph{flexible}」モデルに変換し、様々な計算予算でインプットを処理できるようにします。
クラス条件とテキスト条件の両方で、静的なモデルと比較して、必要なFLOPを40$\%以上削減しながら、品質の低下を伴わずに、単一の \emph{flexible} モデルで画像を生成する方法を示す。
提案手法は,入力や条件付けに不慣れな手法である。
そこでFlexiDiTモデルは,パフォーマンスを損なうことなく,最大で75$\%の計算量でサンプルを生成する。
関連論文リスト
- FlowDCN: Exploring DCN-like Architectures for Fast Image Generation with Arbitrary Resolution [33.07779971446476]
任意の解像度で高画質画像を効率よく生成できる、純粋に畳み込みに基づく生成モデルであるFlowDCNを提案する。
FlowDCNは256Times256$ ImageNet Benchmarkと同等の解像度外挿結果で最先端の4.30 sFIDを実現している。
FlowDCNはスケーラブルで柔軟な画像合成のための有望なソリューションであると考えています。
論文 参考訳(メタデータ) (2024-10-30T02:48:50Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Flexiffusion: Segment-wise Neural Architecture Search for Flexible Denoising Schedule [50.260693393896716]
拡散モデル(diffusion model)は、多様な高品質な画像を生成するのに適した最先端の生成モデルである。
近年,より高速な生成プロセスの自動探索技術が採用されている。
拡散モデルの高速化を目的とした新しいトレーニングフリーNASパラダイムであるFlexiffusionを紹介する。
論文 参考訳(メタデータ) (2024-09-26T06:28:05Z) - DEFT: Efficient Fine-Tuning of Diffusion Models by Learning the Generalised $h$-transform [44.29325094229024]
DFT(Doob's h-transform Efficient FineTuning)は、非常に小さなネットワークを微調整して条件付き$h$-transformを高速に学習する条件生成手法である。
画像再構成作業では, 自然画像の知覚品質と医用画像の再現性能を最良に保ちながら, 最大1.6$times$の高速化を実現している。
論文 参考訳(メタデータ) (2024-06-03T20:52:34Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。
AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。
我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - Infor-Coef: Information Bottleneck-based Dynamic Token Downsampling for
Compact and Efficient language model [0.0]
過剰なオーバーヘッドは、大きなレイテンシと計算コストにつながる。
本稿では,大規模言語モデルに対するモデルアクセレーション手法を提案する。
本モデルでは,BERTと比較して精度が8%未満の18倍FLOPの高速化を実現している。
論文 参考訳(メタデータ) (2023-05-21T13:30:56Z) - Streaming Radiance Fields for 3D Video Synthesis [32.856346090347174]
本稿では,実世界のダイナミックシーンの新たなビュー合成のための,ストリーミングレージアンス場再構築のための明示的グリッドベース手法を提案する。
挑戦的なビデオシーケンスの実験により、我々の手法は、フレーム当たり15秒のトレーニング速度を、競合的なレンダリング品質で達成できることが示されている。
論文 参考訳(メタデータ) (2022-10-26T16:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。