Fugu-MT 論文翻訳(概要): FlexDiT: Dynamic Token Density Control for Diffusion Transformer

論文の概要: FlexDiT: Dynamic Token Density Control for Diffusion Transformer

arxiv url: http://arxiv.org/abs/2412.06028v1
Date: Sun, 08 Dec 2024 18:59:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.122356
Title: FlexDiT: Dynamic Token Density Control for Diffusion Transformer
Title（参考訳）: FlexDiT:拡散変圧器の動的トークン密度制御
Authors: Shuning Chang, Pichao Wang, Jiasheng Tang, Yi Yang,
Abstract要約: Diffusion Transformer (DiT)は、優れた生成性能を提供するが、計算上の要求に直面する。我々は,空間次元と時間次元の両方でトークン密度を動的に適用するFlexDiTを提案する。本実験はFlexDiTの有効性を実証し,FLOPの55%削減と推論速度の175%改善を実現した。
参考スコア（独自算出の注目度）: 31.799640242972373
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion Transformers (DiT) deliver impressive generative performance but face prohibitive computational demands due to both the quadratic complexity of token-based self-attention and the need for extensive sampling steps. While recent research has focused on accelerating sampling, the structural inefficiencies of DiT remain underexplored. We propose FlexDiT, a framework that dynamically adapts token density across both spatial and temporal dimensions to achieve computational efficiency without compromising generation quality. Spatially, FlexDiT employs a three-segment architecture that allocates token density based on feature requirements at each layer: Poolingformer in the bottom layers for efficient global feature extraction, Sparse-Dense Token Modules (SDTM) in the middle layers to balance global context with local detail, and dense tokens in the top layers to refine high-frequency details. Temporally, FlexDiT dynamically modulates token density across denoising stages, progressively increasing token count as finer details emerge in later timesteps. This synergy between FlexDiT's spatially adaptive architecture and its temporal pruning strategy enables a unified framework that balances efficiency and fidelity throughout the generation process. Our experiments demonstrate FlexDiT's effectiveness, achieving a 55% reduction in FLOPs and a 175% improvement in inference speed on DiT-XL with only a 0.09 increase in FID score on 512$\times$512 ImageNet images, a 56% reduction in FLOPs across video generation datasets including FaceForensics, SkyTimelapse, UCF101, and Taichi-HD, and a 69% improvement in inference speed on PixArt-$\alpha$ on text-to-image generation task with a 0.24 FID score decrease. FlexDiT provides a scalable solution for high-quality diffusion-based generation compatible with further sampling optimization techniques.
Abstract（参考訳）: Diffusion Transformer (DiT)は、トークンベースの自己アテンションの2次複雑さと広範囲なサンプリングステップの必要性から、優れた生成性能を提供するが、計算上の要求に直面する。最近の研究はサンプリングの高速化に重点を置いているが、DiTの構造的非効率性は未解明のままである。生成品質を損なうことなく,空間次元と時間次元の両方でトークン密度を動的に適用し,計算効率を向上するフレームワークFlexDiTを提案する。 FlexDiTでは、各レイヤにおける機能要件に基づいてトークン密度を割り当てる3つのセグメンテーションアーキテクチャを採用しています。効率的なグローバルな特徴抽出のために下層にポーリングフォーマーを配置し、中層にスパース・デンス・トークン・モジュール(SDTM)を配置し、グローバルコンテキストを局所的な詳細とバランスさせ、上位層に密なトークンを配置し、高周波の詳細を洗練します。一時的にFlexDiTはトークン密度を段階的に動的に調整し、後続のタイムステップで細部の詳細が現れるにつれてトークン数を徐々に増加させます。 FlexDiTの空間適応型アーキテクチャと時間的プルーニング戦略の相乗効果は、生成プロセスを通して効率性と忠実性のバランスをとる統一されたフレームワークを実現する。 512$\times$512 ImageNetイメージ上でのFIDスコアのわずか0.09向上,FaceForensics, SkyTimelapse, UCF101, Taichi-HDを含むビデオ生成データセットでのFLOPの56%削減,PixArt-$\alpha$のテキスト・ツー・画像生成タスクにおける推論速度の69%改善,Dit-XLにおけるFLOPの55%削減,Dit-XLでの推論速度の175%向上を実現した。 FlexDiTは、さらなるサンプリング最適化技術と互換性のある、高品質な拡散ベースの生成のためのスケーラブルなソリューションを提供する。

関連論文リスト

Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers [91.02299679350834]
Diffusion Transformer (DiTs) は最先端の生成性能を提供するが、シークエンス長の2次トレーニングコストは大規模な事前訓練を不当に高価にする。本稿では,高効率拡散変換器のためのスパース-デンス残差核融合法を提案する。
論文参考訳（メタデータ） (2025-10-24T19:29:55Z)
EDFFDNet: Towards Accurate and Efficient Unsupervised Multi-Grid Image Registration [17.190325630307097]
本稿では指数デカイ基底関数を用いた自由形変形を用いた指数デカイ自由形変形ネットワーク(EDFFDNet)を提案する。密接な相互作用をスパースなものにすることで、ASMAはパラメータを減らし、精度を向上させる。 EDFFDNetは、パラメータ、メモリ、総ランタイムをそれぞれ70.5%、32.6%、33.7%削減することを示した。 EDFFDNet-2はより少ない計算コストを維持しながらPSNRを1.06dB改善する。
論文参考訳（メタデータ） (2025-09-09T12:30:51Z)
Exploring Diffusion with Test-Time Training on Efficient Image Restoration [1.3830502387127932]
DiffRWKVIRは、効率的な拡散を伴うテスト時間トレーニング(TTT)を統合する新しいフレームワークである。本手法は,ハードウェアの最適化による適応的,高効率な画像復元のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-06-17T14:01:59Z)
Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文参考訳（メタデータ） (2025-06-03T06:02:50Z)
FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。 PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。 FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文参考訳（メタデータ） (2025-03-25T15:04:53Z)
Training-free and Adaptive Sparse Attention for Efficient Long Video Generation [31.615453637053793]
Diffusion Transformers (DiTs) による高忠実度長ビデオの生成は、しばしば大きな遅延によって妨げられる。本稿では,最初の動的パターンとオンライン精密検索スパースアテンション手法であるAdaSpaを提案する。 AdaSpaは適応的なプラグアンドプレイソリューションとして実装されており、既存のDiTとシームレスに統合することができる。
論文参考訳（メタデータ） (2025-02-28T14:11:20Z)
CAT Pruning: Cluster-Aware Token Pruning For Text-to-Image Diffusion Models [5.406829638216823]
拡散モデルは、特にテキスト対画像合成の領域において、生成タスクに革命をもたらした。しかし、反復的なデノゲーションプロセスは、かなりの計算資源を必要とする。本稿では、トークンレベルのプルーニングとキャッシュ技術を統合して、この計算課題に対処する新しい加速戦略を提案する。
論文参考訳（メタデータ） (2025-02-01T13:46:02Z)
ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文参考訳（メタデータ） (2025-01-31T16:11:04Z)
Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。圧縮比の異なる動的DiT推論フレームワークであるDiffCRを提案する。
論文参考訳（メタデータ） (2024-12-22T02:04:17Z)
Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。本研究では,動的拡散変換器 (DyDiT) を提案する。 3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文参考訳（メタデータ） (2024-10-04T14:14:28Z)
Flexiffusion: Segment-wise Neural Architecture Search for Flexible Denoising Schedule [50.260693393896716]
拡散モデル(diffusion model)は、多様な高品質な画像を生成するのに適した最先端の生成モデルである。近年,より高速な生成プロセスの自動探索技術が採用されている。拡散モデルの高速化を目的とした新しいトレーニングフリーNASパラダイムであるFlexiffusionを紹介する。
論文参考訳（メタデータ） (2024-09-26T06:28:05Z)
LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。 LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文参考訳（メタデータ） (2024-07-13T16:09:45Z)
UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.05657299071648]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。 UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文参考訳（メタデータ） (2024-06-26T08:44:36Z)
Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。 Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文参考訳（メタデータ） (2024-05-23T15:34:53Z)
The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling [78.6155095947769]
Skip-Tuningは、スキップ接続上でシンプルだが驚くほど効果的にトレーニング不要なチューニング方法である。 ImageNet 64 では 19 NFE (1.75) で事前訓練された EDM に対して100% FID の改善が可能である。 Skip-Tuningは画素空間におけるスコアマッチング損失を増加させる一方、特徴空間における損失は減少する。
論文参考訳（メタデータ） (2024-02-23T08:05:23Z)
Dynamic PlenOctree for Adaptive Sampling Refinement in Explicit NeRF [6.135925201075925]
PlenOctree DOTは,シーンの複雑さの変化に対応するために,サンプル分布を適応的に改良する。 POTと比較して、私たちのDOTは視覚的品質を高め、パラメータを55.15ドル/68.84%以上削減し、NeRF合成とタンクにそれぞれ1.7/1.9 FPSを提供する。
論文参考訳（メタデータ） (2023-07-28T06:21:42Z)
Efficient Context Integration through Factorized Pyramidal Learning for Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。 FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文参考訳（メタデータ） (2023-02-23T05:34:51Z)
DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-01-15T09:31:58Z)
UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。 Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文参考訳（メタデータ） (2022-12-08T18:59:57Z)
Tutel: Adaptive Mixture-of-Experts at Scale [20.036168971435306]
深層学習モデルを数兆以上のパラメータに拡張するために、計算コストを固定化するために、疎ゲート混合(MoE)が広く採用されている。我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。我々の評価では、Flexは、最先端のコンピュータビジョンアーキテクチャであるSwin Transformer V2上に構築された実世界のMoEベースのモデルSwinV2-MoEを効率的に効率的に実行している。
論文参考訳（メタデータ） (2022-06-07T15:20:20Z)
Real-Time High-Performance Semantic Image Segmentation of Urban Street Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文参考訳（メタデータ） (2020-03-11T08:45:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。