論文の概要: EDiT: Efficient Diffusion Transformers with Linear Compressed Attention
- arxiv url: http://arxiv.org/abs/2503.16726v1
- Date: Thu, 20 Mar 2025 21:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 15:40:10.218401
- Title: EDiT: Efficient Diffusion Transformers with Linear Compressed Attention
- Title(参考訳): EDiT:リニア圧縮アテンションを有する効率的な拡散変換器
- Authors: Philipp Becker, Abhinav Mehrotra, Ruchika Chavhan, Malcolm Chadwick, Luca Morreale, Mehdi Noroozi, Alberto Gil Ramos, Sourav Bhattacharya,
- Abstract要約: DiTの注意の2次スケーリング特性は、高解像度の画像生成や限られたリソースを持つデバイスを妨げます。
これらの効率ボトルネックを軽減するために,効率的な拡散変換器(EDiT)を導入する。
PixArt-Sigma(Conventional DiT)とStable Diffusion 3.5-Medium(MM-DiT)に統合することで,EDiTおよびMM-EDiTアーキテクチャの有効性を示す。
- 参考スコア(独自算出の注目度): 11.36660486878447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) have emerged as a leading architecture for text-to-image synthesis, producing high-quality and photorealistic images. However, the quadratic scaling properties of the attention in DiTs hinder image generation with higher resolution or on devices with limited resources. This work introduces an efficient diffusion transformer (EDiT) to alleviate these efficiency bottlenecks in conventional DiTs and Multimodal DiTs (MM-DiTs). First, we present a novel linear compressed attention method that uses a multi-layer convolutional network to modulate queries with local information while keys and values are spatially aggregated. Second, we formulate a hybrid attention scheme for multi-modal inputs that combines linear attention for image-to-image interactions and standard scaled dot-product attention for interactions involving prompts. Merging these two approaches leads to an expressive, linear-time Multimodal Efficient Diffusion Transformer (MM-EDiT). We demonstrate the effectiveness of the EDiT and MM-EDiT architectures by integrating them into PixArt-Sigma(conventional DiT) and Stable Diffusion 3.5-Medium (MM-DiT), achieving up to 2.2x speedup with comparable image quality after distillation.
- Abstract(参考訳): Diffusion Transformers (DiTs) はテキストと画像の合成において主要なアーキテクチャとして登場し、高品質でフォトリアリスティックな画像を生成する。
しかし、DiTの注意の2次スケーリング特性は、高解像度の画像生成や限られたリソースを持つデバイスを妨げている。
本研究は,従来のDiTとMultimodal DiT(MM-DiT)の効率ボトルネックを軽減するために,効率的な拡散変圧器(EDiT)を導入する。
まず,鍵と値が空間的に集約されている間,局所的な情報でクエリを変調する多層畳み込みネットワークを用いた新しい線形圧縮型アテンション手法を提案する。
第2に、画像と画像の相互作用に対する線形の注意と、プロンプトを含む相互作用に対する標準スケールのドット-積の注意を組み合わせたマルチモーダル入力に対するハイブリッドな注意スキームを定式化する。
これら2つのアプローチを統合することで、線形時間多モード効率拡散変換器(MM-EDiT)が実現される。
EDiTおよびMM-EDiTアーキテクチャの有効性をPixArt-Sigma(Conventional DiT)とStable Diffusion 3.5-Medium(MM-DiT)に統合し,蒸留後の画像品質に匹敵する2.2倍の高速化を実現した。
関連論文リスト
- DiTFastAttnV2: Head-wise Attention Compression for Multi-Modality Diffusion Transformers [8.697604549478159]
そこで本研究では,テキスト・画像生成モデルにおける注目度向上を目的としたポストトレーニング圧縮手法であるDiTFastAttnV2を紹介する。
MMDiTの注意パターンの詳細な分析を通じて,頭部矢印の注意とキャッシング機構を提案する。
カスタマイズされたカーネルでは、DiTFastAttnV2は注目のFLOPを68%削減し、2K画像生成におけるエンドツーエンドのスピードアップを1.5倍に向上させる。
論文 参考訳(メタデータ) (2025-03-28T18:00:12Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - DTU-Net: A Multi-Scale Dilated Transformer Network for Nonlinear Hyperspectral Unmixing [16.19039818961399]
非線形ハイパースペクトルアンミキシングのためのDilated Transformerベースのアンミキシングネットワークを提案する。
デコーダは線形と非線形の混合シナリオの両方に対応するように設計されている。
その解釈性は、終端員、存在量、非線形係数の間の関係を明示的にモデル化することによって強化される。
論文 参考訳(メタデータ) (2025-03-05T12:56:33Z) - Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。
圧縮率の異なる動的DiT推論フレームワークであるDiffRatio-MoDを提案する。
論文 参考訳(メタデータ) (2024-12-22T02:04:17Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。
FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。
総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文 参考訳(メタデータ) (2024-10-17T15:51:49Z) - Efficient Diffusion Transformer with Step-wise Dynamic Attention Mediators [83.48423407316713]
本稿では,クエリとキーを別々に扱うために,追加の仲介者トークンを組み込んだ新しい拡散トランスフォーマーフレームワークを提案する。
本モデルでは, 正確な非曖昧な段階を呈し, 詳細に富んだ段階へと徐々に遷移する。
本手法は,最近のSiTと統合した場合に,最先端のFIDスコア2.01を達成する。
論文 参考訳(メタデータ) (2024-08-11T07:01:39Z) - MDT-A2G: Exploring Masked Diffusion Transformers for Co-Speech Gesture Generation [44.74056930805525]
MDT-A2Gと呼ばれる音声合成のための新しいMasked Diffusion Transformerを提案する。
このモデルは、シーケンスジェスチャ間の時間的関係学習を強化するために特別に設計されたマスクモデリングスキームを用いる。
実験の結果,MDT-A2Gはジェスチャ生成に優れ,従来の拡散変圧器よりも6ドル以上高速な学習速度を有することがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:29:01Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Dual-Stream Attention Transformers for Sewer Defect Classification [2.5499055723658097]
効率的な下水道欠陥分類のためのRGBおよび光フロー入力を処理するデュアルストリーム・ビジョン・トランスフォーマアーキテクチャを提案する。
私たちのキーとなるアイデアは、RGBとモーションストリームの相補的な強みを活用するために、自己注意の正則化を使用することです。
自己注意型レギュレータによる動作キューの活用により、RGBアテンションマップの整列と強化を行い、ネットワークが関連する入力領域に集中できるようにする。
論文 参考訳(メタデータ) (2023-11-07T02:31:51Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。