論文の概要: MPDiT: Multi-Patch Global-to-Local Transformer Architecture For Efficient Flow Matching and Diffusion Model
- arxiv url: http://arxiv.org/abs/2603.26357v1
- Date: Fri, 27 Mar 2026 12:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.500833
- Title: MPDiT: Multi-Patch Global-to-Local Transformer Architecture For Efficient Flow Matching and Diffusion Model
- Title(参考訳): MPDiT:効率的なフローマッチングと拡散モデルのためのマルチパッチグローバルローカルトランスフォーマアーキテクチャ
- Authors: Quan Dao, Dimitris Metaxas,
- Abstract要約: 拡散変換器(DiT)は拡散および流れマッチングモデルに広く用いられている。
DiTは同じ数のパッチ付きトークンを各ブロックで処理し、トレーニングプロセス中に比較的重い計算を行う。
マルチパッチトランスフォーマーの設計では、初期ブロックが大きめのパッチで動作し、粗いグローバルコンテキストをキャプチャし、後続ブロックはより小さなパッチを使用して局所的な詳細を精査する。
- 参考スコア(独自算出の注目度): 6.401952350014671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer architectures, particularly Diffusion Transformers (DiTs), have become widely used in diffusion and flow-matching models due to their strong performance compared to convolutional UNets. However, the isotropic design of DiTs processes the same number of patchified tokens in every block, leading to relatively heavy computation during training process. In this work, we introduce a multi-patch transformer design in which early blocks operate on larger patches to capture coarse global context, while later blocks use smaller patches to refine local details. This hierarchical design could reduces computational cost by up to 50\% in GFLOPs while achieving good generative performance. In addition, we also propose improved designs for time and class embeddings that accelerate training convergence. Extensive experiments on the ImageNet dataset demonstrate the effectiveness of our architectural choices. Code is released at \url{https://github.com/quandao10/MPDiT}
- Abstract(参考訳): トランスフォーマーアーキテクチャ、特に拡散トランスフォーマー(DiT)は、畳み込みUNETと比較して強い性能のため、拡散およびフローマッチングモデルで広く使われている。
しかし、DiTsの等方的設計は各ブロックに同じ数のパッチ付きトークンを処理し、トレーニングプロセス中に比較的重い計算を行う。
本研究では,初期ブロックが大きめのパッチで操作し,粗いグローバルコンテキストをキャプチャするマルチパッチトランスフォーマー設計を提案する。
この階層設計により、GFLOPの計算コストを最大50%削減し、優れた生成性能を実現することができる。
さらに,学習の収束を加速する時間とクラス埋め込みの設計の改善も提案する。
ImageNetデータセットの大規模な実験では、アーキテクチャの選択の有効性が示されています。
コードは \url{https://github.com/quandao10/MPDiT} でリリースされる
関連論文リスト
- TNT: Improving Chunkwise Training for Test-Time Memorization [62.78875147721906]
タイタンスやTTTのような深いテストタイム記憶モジュールを持つリカレントニューラルネットワーク(RNN)は、トランスフォーマーとは異なる有望で線形にスケールするパラダイムである。
TNTは,2段階のプロセスを通じて,推論性能からトレーニング効率を分離する,新たなトレーニングパラダイムである。
TNTはトレーニング速度を最も正確なベースライン構成の17倍に高速化する。
論文 参考訳(メタデータ) (2025-11-10T17:45:09Z) - PiT: Progressive Diffusion Transformer [50.46345527963736]
拡散変換器(DiT)は変換器アーキテクチャを用いて画像生成において顕著な性能を発揮する。
DiTは以前信じられていたようなグローバルな情報に大きく依存していない。
Pseudo Progressive Diffusion Transformer (PiT)を提案する。
論文 参考訳(メタデータ) (2025-05-19T15:02:33Z) - Fourier Transformer: Fast Long Range Modeling by Removing Sequence Redundancy with FFT Operator [36.66799002929583]
トランスモデルは、計算的に要求されることが知られており、長いシーケンスでは不当にコストがかかる。
本稿では,シークエンスにおける冗長性を段階的に除去する,シンプルかつ効果的なFourier Transformerを提案する。
本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-05-24T12:33:06Z) - Fast-FNet: Accelerating Transformer Encoder Models via Efficient Fourier
Layers [0.0]
トランスフォーマーベースの言語モデルは、ほぼすべての自然言語処理(NLP)タスクにおいて、大幅なパフォーマンス向上のためにアテンションメカニズムを利用する。
最近の研究は、計算不効率の欠点を取り除くことに重点を置いており、トランスフォーマーベースのモデルが注意層を使わずに競争結果に到達できることを示した。
先駆的な研究は、アテンション層をトランスフォーマーエンコーダアーキテクチャのフーリエ変換(FT)に置き換えるFNetを提案した。
論文 参考訳(メタデータ) (2022-09-26T16:23:02Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。