論文の概要: CoReDiT: Spatial Coherence-Guided Token Pruning and Reconstruction for Efficient Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2605.14191v1
- Date: Wed, 13 May 2026 23:13:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.535457
- Title: CoReDiT: Spatial Coherence-Guided Token Pruning and Reconstruction for Efficient Diffusion Transformers
- Title(参考訳): CoReDiT:効率的な拡散変換器の空間コヒーレンス誘導型トケンプルーニングと再構成
- Authors: Zhuojin Li, Hsin-Pai Cheng, Hong Cai, Shizhong Han, Fatih Porikli,
- Abstract要約: Diffusion Transformer (DiTs) は画像やビデオ生成の質は高いが、高い計算コストがかかる。
視覚タスク間でのDiTのための構造化トークンプルーニングフレームワークであるCoReDiTを紹介する。
CoReDiTは線形時間空間コヒーレンススコアを用いて、潜在トークン格子内の局所的冗長性を推定し、自己アテンションにおいて高いコヒーレンス(冗長)トークンをスキップする。
- 参考スコア(独自算出の注目度): 47.93757224439124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) deliver remarkable image and video generation quality but incur high computational cost, limiting scalability and on-device deployment. We introduce CoReDiT, a structured token pruning framework for DiTs across vision tasks. CoReDiT uses a linear-time spatial coherence score to estimate local redundancy in the latent token lattice and skips high coherence (redundant) tokens in self-attention. To maintain a dense representation and avoid visual discontinuities, we reconstruct skipped attention outputs via coherence-guided aggregation of spatially neighboring retained tokens. We further introduce a progressive, block-adaptive pruning schedule that increases pruning gradually and allocates larger budgets to blocks and denoising steps with higher redundancy. Across state-of-the-art diffusion backbones including PixArt-α and MagicDrive-V2, CoReDiT achieves up to 55% self-attention FLOPs reduction and inference speedups of 1.33x on cloud GPUs and 1.72x on mobile NPUs, while maintaining high visual quality. Notably, CoReDiT also increases on-device memory head-room, enabling higher-resolution generation.
- Abstract(参考訳): Diffusion Transformer (DiTs) は、画像およびビデオ生成の品質は素晴らしいが、高い計算コストがかかり、スケーラビリティやデバイス上のデプロイメントが制限される。
視覚タスク間でのDiTのための構造化トークンプルーニングフレームワークであるCoReDiTを紹介する。
CoReDiTは線形時間空間コヒーレンススコアを用いて、潜在トークン格子内の局所的冗長性を推定し、自己アテンションにおいて高いコヒーレンス(冗長)トークンをスキップする。
濃密な表現を維持し、視覚の不連続を避けるため、空間的に隣接した保持トークンのコヒーレンス誘導アグリゲーションにより、スキップされた注意出力を再構成した。
さらに、段階的かつブロック適応的なプルーニングスケジュールを導入し、プランニングを徐々に増加させ、ブロックにより大きな予算を割り当て、より冗長度の高いステップをデノナイズする。
PixArt-αやMagicDrive-V2といった最先端の拡散バックボーンを通じて、CoReDiTは、高い視覚的品質を維持しながら、クラウドGPUで1.33倍、モバイルNPUで1.72倍の自己アテンションFLOPを最大55%削減および推論スピードアップを達成する。
特に、CoReDiTはデバイス上のメモリヘッドルームも増加し、高解像度の生成を可能にしている。
関連論文リスト
- TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders [51.71228803075235]
我々は、深部圧縮オートエンコーダのためのViTベースのアーキテクチャであるTC-AEを提案する。
トークン・ツー・ラテント圧縮を2段階に分解し,構造的情報損失を低減する。
画像トークンのセマンティック構造を,共同指導による訓練によって強化し,より生成しやすい潜伏者へと導いた。
論文 参考訳(メタデータ) (2026-04-08T17:53:52Z) - CIAR: Interval-based Collaborative Decoding for Image Generation Acceleration [47.52310736101766]
自動回帰(AR)モデルは最近画像生成において顕著な進歩を遂げ、拡散ベースのアプローチに匹敵するパフォーマンスを実現している。
我々は、デバイス上での自己検証を利用して視覚合成の2つの重要な特性を扱うクラウド・デバイス・コラボレーション・フレームワークである textbfCIAR を通じてこの問題に対処する。
提案手法は, 連続確率間隔を用いて処理を高速化し, 大規模視覚語彙で実現可能なオンデバイストークン不確実性定量化器に重点を置いている。
論文 参考訳(メタデータ) (2026-03-26T14:04:50Z) - SFTok: Bridging the Performance Gap in Discrete Tokenizers [72.9996757048065]
複数ステップの反復機構を組み込んだ離散トークン化機構である textbfSFTok を提案する。
画像当たり64トークンの高速圧縮速度で、SFTokはImageNetの最先端の再構築品質を達成する。
論文 参考訳(メタデータ) (2025-12-18T18:59:04Z) - Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention [54.15345846343084]
品質を損なうことなくスパースボクセルモデリングを大幅に高速化する,効率的な3D生成フレームワークであるUltra3Dを提案する。
部分注意(Part Attention)は、意味的に一貫した部分領域内での注意計算を制限する幾何学的な局所的注意機構である。
実験により、Ultra3Dは1024の解像度で高解像度の3D生成をサポートし、視覚的忠実度とユーザの好みの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-23T17:57:16Z) - DnLUT: Ultra-Efficient Color Image Denoising via Channel-Aware Lookup Tables [60.95483707212802]
DnLUTは、リソース消費を最小限に抑えながら高品質なカラーイメージを実現する、超効率的なルックアップテーブルベースのフレームワークである。
Pairwise Channel Mixer(PCM)は、チャネル間の相関関係と空間的依存関係を並列に効果的にキャプチャし、L字型畳み込み設計により受容界のカバレッジを最大化する。
これらのコンポーネントをトレーニング後に最適化されたルックアップテーブルに変換することで、DnLUTは、CNNの競合であるDnCNNと比較して500KBのストレージと0.1%のエネルギー消費しか必要とせず、20倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-03-20T08:15:29Z) - Faster Image2Video Generation: A Closer Look at CLIP Image Embedding's Impact on Spatio-Temporal Cross-Attentions [27.111140222002653]
本稿では,Stable Video Diffusion (SVD) フレームワークにおけるCLIP画像埋め込みの役割について検討する。
本稿では,SVDアーキテクチャの効率性に最適化されたトレーニング不要のアプローチであるVCUTを紹介する。
VCUTの実装により、ビデオ毎のMAC(Multiple-Accumulate Operations)を最大322T削減し、モデルパラメータを最大50M削減し、ベースラインと比較して20%のレイテンシ削減を実現した。
論文 参考訳(メタデータ) (2024-07-27T08:21:14Z) - DiTFastAttn: Attention Compression for Diffusion Transformer Models [26.095923502799664]
拡散変換器(DiT)は画像および映像生成において優れるが、自己注意演算子による計算上の課題に直面している。
本稿では,DiTの計算ボトルネックを軽減するための後処理圧縮手法であるDiTFastAttnを提案する。
その結果,画像生成ではFLOPの最大76%を削減し,高分解能(2k x 2k)世代で最大1.8倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-12T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。