論文の概要: Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2510.21986v1
- Date: Fri, 24 Oct 2025 19:29:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.724027
- Title: Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers
- Title(参考訳): スプリント:効率的な拡散変換器のための疎密度残留核融合
- Authors: Dogyun Park, Moayed Haji-Ali, Yanyu Li, Willi Menapace, Sergey Tulyakov, Hyunwoo J. Kim, Aliaksandr Siarohin, Anil Kag,
- Abstract要約: Diffusion Transformer (DiTs) は最先端の生成性能を提供するが、シークエンス長の2次トレーニングコストは大規模な事前訓練を不当に高価にする。
本稿では,高効率拡散変換器のためのスパース-デンス残差核融合法を提案する。
- 参考スコア(独自算出の注目度): 91.02299679350834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) deliver state-of-the-art generative performance but their quadratic training cost with sequence length makes large-scale pretraining prohibitively expensive. Token dropping can reduce training cost, yet na\"ive strategies degrade representations, and existing methods are either parameter-heavy or fail at high drop ratios. We present SPRINT, Sparse--Dense Residual Fusion for Efficient Diffusion Transformers, a simple method that enables aggressive token dropping (up to 75%) while preserving quality. SPRINT leverages the complementary roles of shallow and deep layers: early layers process all tokens to capture local detail, deeper layers operate on a sparse subset to cut computation, and their outputs are fused through residual connections. Training follows a two-stage schedule: long masked pre-training for efficiency followed by short full-token fine-tuning to close the train--inference gap. On ImageNet-1K 256x256, SPRINT achieves 9.8x training savings with comparable FID/FDD, and at inference, its Path-Drop Guidance (PDG) nearly halves FLOPs while improving quality. These results establish SPRINT as a simple, effective, and general solution for efficient DiT training.
- Abstract(参考訳): Diffusion Transformer (DiTs) は最先端の生成性能を提供するが、シークエンス長の2次トレーニングコストは大規模な事前訓練を不当に高価にする。
トークンドロップは、トレーニングコストを削減できるが、na\\"ive戦略は表現を劣化させ、既存のメソッドはパラメータ重か高いドロップ比で失敗する。
本稿では,SPRINT, Sparse-Dense Residual Fusion for Efficient Diffusion Transformersを提案する。
SPRINTは浅い層と深い層の相補的な役割を生かしている: 初期のレイヤはすべてのトークンを処理して局所的な詳細をキャプチャし、深いレイヤは計算をカットするためにスパースサブセットで動作し、その出力は残りの接続を通じて融合される。
トレーニングは2段階のスケジュールに従っており、効率性のための長いマスク付き事前訓練と、列車の干渉ギャップを塞ぐための完全な微調整が続く。
ImageNet-1K 256x256では、SPRINTはFID/FDDに匹敵する9.8倍のトレーニングセーブを達成しており、推測では、そのパス・ドロップ・ガイダンス(PDG)はFLOPをほぼ半分にし、品質を改善している。
これらの結果は、効率的なDiTトレーニングのための単純で効果的で汎用的なソリューションとしてSPRINTを確立している。
関連論文リスト
- DTRNet: Dynamic Token Routing Network to Reduce Quadratic Costs in Transformers [28.595962720945348]
変換器は多くのタスクにまたがって最先端の結果を得るが、2次自己注意の均一な適用により計算コストがかかる。
改良されたトランスフォーマーアーキテクチャであるDynamic Token Routing Networkを導入し、トークンがクロストークンミキシングの2次コストを動的にスキップできるようにする。
論文 参考訳(メタデータ) (2025-08-31T16:21:21Z) - REPA Works Until It Doesn't: Early-Stopped, Holistic Alignment Supercharges Diffusion Training [58.33728862521732]
Diffusion Transformer (DiTs)は最先端の画像品質を提供するが、訓練は依然として遅い。
最近の治療 -- DiT の隠された特徴と非生成的教師(例えば DINO)の特徴とを一致させる表現アライメント(REPA) -- は、初期のエポックを劇的に加速させるが、その後パフォーマンスを低下させる。
生成学習者が共同データ分布をモデル化し始めると、教師の低次元埋め込みと注意パターンがガイドではなくストラトジャケットになる。
HASTEを紹介する
論文 参考訳(メタデータ) (2025-05-22T15:34:33Z) - BEExformer: A Fast Inferencing Binarized Transformer with Early Exits [2.7651063843287718]
BAT(Binarized Early Exit Transformer)とEE(Early Exit)を統合した最初の選択型学習ベーストランスであるBEExformerを紹介する。
BATは符号関数に微分可能な二階近似を用い、重みの符号と大きさの両方を捉える勾配を可能にする。
EEメカニズムは、ソフトルーティング損失推定を伴う中間変圧器ブロック間のエントロピーの分数還元に係わる。
これにより、FLOPを52.08%削減して推論を加速し、深層ネットワークに固有の「過剰な」問題を解くことで精度を2.89%向上させる。
論文 参考訳(メタデータ) (2024-12-06T17:58:14Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。
これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。
特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文 参考訳(メタデータ) (2024-01-23T14:53:20Z) - Layer Freezing & Data Sieving: Missing Pieces of a Generic Framework for
Sparse Training [48.152207339344564]
層凍結とデータシービングをスパーストレーニングアルゴリズムに組み込んで汎用フレームワークを構築できることを示す。
実験の結果,SpFDEは重み空間,層凍結,データセット収集の3次元から精度を保ちながら,トレーニングコストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-22T17:45:23Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Progressively Stacking 2.0: A Multi-stage Layerwise Training Method for
BERT Training Speedup [13.50984315473865]
BERTのトレーニング時間を短縮するために,効率的な多段階階層トレーニング(MSLT)手法を提案する。
提案されたトレーニング戦略では、上位層のみが後方計算に参加し、ほとんどの層は前方計算にのみ参加する。
実験結果から,提案手法は性能劣化を伴わずに110%以上のトレーニングスピードアップを達成できることが示唆された。
論文 参考訳(メタデータ) (2020-11-27T10:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。