論文の概要: Swin DiT: Diffusion Transformer using Pseudo Shifted Windows
- arxiv url: http://arxiv.org/abs/2505.13219v1
- Date: Mon, 19 May 2025 15:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.683196
- Title: Swin DiT: Diffusion Transformer using Pseudo Shifted Windows
- Title(参考訳): Swin DiT: Pseudo Shifted Windows を用いた拡散変換器
- Authors: Jiafu Wu, Yabiao Wang, Jian Li, Jinlong Peng, Yun Cao, Chengjie Wang, Jiangning Zhang,
- Abstract要約: 拡散変換器 (DiT) は, トランスアーキテクチャの導入により, 画像生成領域内での顕著な性能を実現する。
我々は,従来想定されていたようなグローバル情報への強い依存を示さない空間画像生成を実証的に分析した。
我々は,Pseudo textbfShifted textbfWindow DiTs (textbfSwin DiT) のシリーズを提案する。
- 参考スコア(独自算出の注目度): 50.46345527963736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) achieve remarkable performance within the domain of image generation through the incorporation of the transformer architecture. Conventionally, DiTs are constructed by stacking serial isotropic global information modeling transformers, which face significant computational cost when processing high-resolution images. We empirically analyze that latent space image generation does not exhibit a strong dependence on global information as traditionally assumed. Most of the layers in the model demonstrate redundancy in global computation. In addition, conventional attention mechanisms exhibit low-frequency inertia issues. To address these issues, we propose \textbf{P}seudo \textbf{S}hifted \textbf{W}indow \textbf{A}ttention (PSWA), which fundamentally mitigates global model redundancy. PSWA achieves intermediate global-local information interaction through window attention, while employing a high-frequency bridging branch to simulate shifted window operations, supplementing appropriate global and high-frequency information. Furthermore, we propose the Progressive Coverage Channel Allocation(PCCA) strategy that captures high-order attention similarity without additional computational cost. Building upon all of them, we propose a series of Pseudo \textbf{S}hifted \textbf{Win}dow DiTs (\textbf{Swin DiT}), accompanied by extensive experiments demonstrating their superior performance. For example, our proposed Swin-DiT-L achieves a 54%$\uparrow$ FID improvement over DiT-XL/2 while requiring less computational. https://github.com/wujiafu007/Swin-DiT
- Abstract(参考訳): 拡散変換器 (DiT) は, トランスアーキテクチャの導入により, 画像生成領域内での顕著な性能を実現する。
従来、DiTは、高解像度画像を処理する際に計算コストが大幅にかかるシリアル等方的グローバル情報モデリング変換器を積み重ねて構築されている。
我々は,従来想定されていたようなグローバル情報への強い依存を示さない空間画像生成を実証的に分析した。
モデル内のほとんどの層は、大域的な計算における冗長性を示している。
さらに、従来の注意機構は低周波慣性問題を示す。
これらの問題に対処するため、大域的なモデル冗長性を根本的に緩和する、 \textbf{P}seudo \textbf{S}hifted \textbf{W}indow \textbf{A}ttention (PSWA)を提案する。
PSWAは、移動ウィンドウ操作をシミュレートし、適切なグローバルおよび高周波情報を補完する高周波ブリッジングブランチを用いて、ウィンドウアテンションを介して、中間的なグローバルローカル情報インタラクションを実現する。
さらに,計算コストを伴わずに高次注目度類似性を捕捉するプログレッシブ・カバージュ・チャネル・アロケーション(PCCA)戦略を提案する。
これらすべてに基づいて、Pseudo \textbf{S}hifted \textbf{Win}dow DiTs (\textbf{Swin DiT}) のシリーズを提案し、その優れた性能を示す広範な実験を行った。
例えば、提案したSwin-DiT-Lは、より少ない計算で、DiT-XL/2よりも54%$\uparrow$ FIDの改善を実現している。
https://github.com/wujiafu007/Swin-DiT
関連論文リスト
- Can We Achieve Efficient Diffusion without Self-Attention? Distilling Self-Attention into Convolutions [94.21989689001848]
従来の自己アテンションモジュールをピラミッド畳み込みブロック((Delta)ConvBlocks)に置き換えるための(Delta)ConvFusionを提案する。
ローカライズされた畳み込み操作に注意パターンを蒸留し、他のコンポーネントを凍結させながら、(Delta)ConvFusionは、トランスフォーマーベースの処理に匹敵する性能を達成し、計算コストを6929$times$、LinFusionを5.42$times$の効率で上回る。
論文 参考訳(メタデータ) (2025-04-30T03:57:28Z) - Contrast: A Hybrid Architecture of Transformers and State Space Models for Low-Level Vision [3.574664325523221]
textbfContrastは、textbfConvolutional、textbfTransformer、textbfState Spaceコンポーネントを組み合わせたハイブリッドSRモデルである。
変換器と状態空間機構を統合することで、textbfContrastは各アプローチの欠点を補償し、グローバルコンテキストモデリングとピクセルレベルの精度を向上させる。
論文 参考訳(メタデータ) (2025-01-23T03:34:14Z) - Qihoo-T2X: An Efficient Proxy-Tokenized Diffusion Transformer for Text-to-Any-Task [42.422925759342874]
本稿では,グローバルな視覚情報を効率的にモデル化するためのPT-DiT(Proxy-Tokenized Diffusion Transformer)を提案する。
各トランスブロック内で、各時空間ウィンドウから平均化トークンを計算し、その領域のプロキシトークンとして機能する。
また,スパースアテンション機構によって引き起こされる詳細モデリングの限界に対処するために,ウィンドウとシフトウインドウのアテンションを導入する。
論文 参考訳(メタデータ) (2024-09-06T03:13:45Z) - SGFormer: Simplifying and Empowering Transformers for Large-Graph Representations [75.71298846760303]
ノード特性予測ベンチマークにおいて,一層注意が驚くほど高い性能を示すことを示す。
提案手法をSGFormer (Simplified Graph Transformer) と呼ぶ。
提案手法は,大きなグラフ上にトランスフォーマーを構築する上で,独立性のある新たな技術パスを啓蒙するものである。
論文 参考訳(メタデータ) (2023-06-19T08:03:25Z) - RFR-WWANet: Weighted Window Attention-Based Recovery Feature Resolution
Network for Unsupervised Image Registration [7.446209993071451]
Swin変換器は、その計算効率と長距離モデリング能力のために、医用画像解析に注目を集めている。
トランスフォーマーに基づく登録モデルは、複数のボクセルを単一のセマンティックトークンに結合する。
このマージプロセスは変換器をモデルに制限し、粗い粒度の空間情報を生成する。
本研究では, 高精度な空間情報提供を可能にするRFRNet(Recovery Feature Resolution Network)を提案する。
論文 参考訳(メタデータ) (2023-05-07T09:57:29Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。