論文の概要: FlexDiT: Dynamic Token Density Control for Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2412.06028v1
- Date: Sun, 08 Dec 2024 18:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:57.678560
- Title: FlexDiT: Dynamic Token Density Control for Diffusion Transformer
- Title(参考訳): FlexDiT:拡散変圧器の動的トークン密度制御
- Authors: Shuning Chang, Pichao Wang, Jiasheng Tang, Yi Yang,
- Abstract要約: Diffusion Transformer (DiT)は、優れた生成性能を提供するが、計算上の要求に直面する。
我々は,空間次元と時間次元の両方でトークン密度を動的に適用するFlexDiTを提案する。
本実験はFlexDiTの有効性を実証し,FLOPの55%削減と推論速度の175%改善を実現した。
- 参考スコア(独自算出の注目度): 31.799640242972373
- License:
- Abstract: Diffusion Transformers (DiT) deliver impressive generative performance but face prohibitive computational demands due to both the quadratic complexity of token-based self-attention and the need for extensive sampling steps. While recent research has focused on accelerating sampling, the structural inefficiencies of DiT remain underexplored. We propose FlexDiT, a framework that dynamically adapts token density across both spatial and temporal dimensions to achieve computational efficiency without compromising generation quality. Spatially, FlexDiT employs a three-segment architecture that allocates token density based on feature requirements at each layer: Poolingformer in the bottom layers for efficient global feature extraction, Sparse-Dense Token Modules (SDTM) in the middle layers to balance global context with local detail, and dense tokens in the top layers to refine high-frequency details. Temporally, FlexDiT dynamically modulates token density across denoising stages, progressively increasing token count as finer details emerge in later timesteps. This synergy between FlexDiT's spatially adaptive architecture and its temporal pruning strategy enables a unified framework that balances efficiency and fidelity throughout the generation process. Our experiments demonstrate FlexDiT's effectiveness, achieving a 55% reduction in FLOPs and a 175% improvement in inference speed on DiT-XL with only a 0.09 increase in FID score on 512$\times$512 ImageNet images, a 56% reduction in FLOPs across video generation datasets including FaceForensics, SkyTimelapse, UCF101, and Taichi-HD, and a 69% improvement in inference speed on PixArt-$\alpha$ on text-to-image generation task with a 0.24 FID score decrease. FlexDiT provides a scalable solution for high-quality diffusion-based generation compatible with further sampling optimization techniques.
- Abstract(参考訳): Diffusion Transformer (DiT)は、トークンベースの自己アテンションの2次複雑さと広範囲なサンプリングステップの必要性から、優れた生成性能を提供するが、計算上の要求に直面する。
最近の研究はサンプリングの高速化に重点を置いているが、DiTの構造的非効率性は未解明のままである。
生成品質を損なうことなく,空間次元と時間次元の両方でトークン密度を動的に適用し,計算効率を向上するフレームワークFlexDiTを提案する。
FlexDiTでは、各レイヤにおける機能要件に基づいてトークン密度を割り当てる3つのセグメンテーションアーキテクチャを採用しています。 効率的なグローバルな特徴抽出のために下層にポーリングフォーマーを配置し、中層にスパース・デンス・トークン・モジュール(SDTM)を配置し、グローバルコンテキストを局所的な詳細とバランスさせ、上位層に密なトークンを配置し、高周波の詳細を洗練します。
一時的にFlexDiTはトークン密度を段階的に動的に調整し、後続のタイムステップで細部の詳細が現れるにつれてトークン数を徐々に増加させます。
FlexDiTの空間適応型アーキテクチャと時間的プルーニング戦略の相乗効果は、生成プロセスを通して効率性と忠実性のバランスをとる統一されたフレームワークを実現する。
512$\times$512 ImageNetイメージ上でのFIDスコアのわずか0.09向上,FaceForensics, SkyTimelapse, UCF101, Taichi-HDを含むビデオ生成データセットでのFLOPの56%削減,PixArt-$\alpha$のテキスト・ツー・画像生成タスクにおける推論速度の69%改善,Dit-XLにおけるFLOPの55%削減,Dit-XLでの推論速度の175%向上を実現した。
FlexDiTは、さらなるサンプリング最適化技術と互換性のある、高品質な拡散ベースの生成のためのスケーラブルなソリューションを提供する。
関連論文リスト
- Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Flexiffusion: Segment-wise Neural Architecture Search for Flexible Denoising Schedule [50.260693393896716]
拡散モデル(diffusion model)は、多様な高品質な画像を生成するのに適した最先端の生成モデルである。
近年,より高速な生成プロセスの自動探索技術が採用されている。
拡散モデルの高速化を目的とした新しいトレーニングフリーNASパラダイムであるFlexiffusionを紹介する。
論文 参考訳(メタデータ) (2024-09-26T06:28:05Z) - LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。
LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文 参考訳(メタデータ) (2024-07-13T16:09:45Z) - Efflex: Efficient and Flexible Pipeline for Spatio-Temporal Trajectory Graph Modeling and Representation Learning [8.690298376643959]
グラフモデリングと大規模時間軌道の学習のための包括的パイプラインであるEfflexを紹介する。
Efflexは、グラフ構築のための特徴融合を伴う多体積ケストニア隣人(KNN)アルゴリズムの組み入れを先駆している。
グラウンディンググラフ構築機構と高性能軽量GCNは、埋め込み抽出速度を最大36倍高速化する。
論文 参考訳(メタデータ) (2024-04-15T05:36:27Z) - The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling [78.6155095947769]
Skip-Tuningは、スキップ接続上でシンプルだが驚くほど効果的にトレーニング不要なチューニング方法である。
ImageNet 64 では 19 NFE (1.75) で事前訓練された EDM に対して100% FID の改善が可能である。
Skip-Tuningは画素空間におけるスコアマッチング損失を増加させる一方、特徴空間における損失は減少する。
論文 参考訳(メタデータ) (2024-02-23T08:05:23Z) - Dynamic PlenOctree for Adaptive Sampling Refinement in Explicit NeRF [6.135925201075925]
PlenOctree DOTは,シーンの複雑さの変化に対応するために,サンプル分布を適応的に改良する。
POTと比較して、私たちのDOTは視覚的品質を高め、パラメータを55.15ドル/68.84%以上削減し、NeRF合成とタンクにそれぞれ1.7/1.9 FPSを提供する。
論文 参考訳(メタデータ) (2023-07-28T06:21:42Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - Tutel: Adaptive Mixture-of-Experts at Scale [20.036168971435306]
深層学習モデルを数兆以上のパラメータに拡張するために、計算コストを固定化するために、疎ゲート混合(MoE)が広く採用されている。
我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。
我々の評価では、Flexは、最先端のコンピュータビジョンアーキテクチャであるSwin Transformer V2上に構築された実世界のMoEベースのモデルSwinV2-MoEを効率的に効率的に実行している。
論文 参考訳(メタデータ) (2022-06-07T15:20:20Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。