Fugu-MT 論文翻訳(概要): Swin DiT: Diffusion Transformer using Pseudo Shifted Windows

論文の概要: Swin DiT: Diffusion Transformer using Pseudo Shifted Windows

arxiv url: http://arxiv.org/abs/2505.13219v1
Date: Mon, 19 May 2025 15:02:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.683196
Title: Swin DiT: Diffusion Transformer using Pseudo Shifted Windows
Title（参考訳）: Swin DiT: Pseudo Shifted Windows を用いた拡散変換器
Authors: Jiafu Wu, Yabiao Wang, Jian Li, Jinlong Peng, Yun Cao, Chengjie Wang, Jiangning Zhang,
Abstract要約: 拡散変換器 (DiT) は, トランスアーキテクチャの導入により, 画像生成領域内での顕著な性能を実現する。我々は,従来想定されていたようなグローバル情報への強い依存を示さない空間画像生成を実証的に分析した。我々は,Pseudo textbfShifted textbfWindow DiTs (textbfSwin DiT) のシリーズを提案する。
参考スコア（独自算出の注目度）: 50.46345527963736
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion Transformers (DiTs) achieve remarkable performance within the domain of image generation through the incorporation of the transformer architecture. Conventionally, DiTs are constructed by stacking serial isotropic global information modeling transformers, which face significant computational cost when processing high-resolution images. We empirically analyze that latent space image generation does not exhibit a strong dependence on global information as traditionally assumed. Most of the layers in the model demonstrate redundancy in global computation. In addition, conventional attention mechanisms exhibit low-frequency inertia issues. To address these issues, we propose \textbf{P}seudo \textbf{S}hifted \textbf{W}indow \textbf{A}ttention (PSWA), which fundamentally mitigates global model redundancy. PSWA achieves intermediate global-local information interaction through window attention, while employing a high-frequency bridging branch to simulate shifted window operations, supplementing appropriate global and high-frequency information. Furthermore, we propose the Progressive Coverage Channel Allocation(PCCA) strategy that captures high-order attention similarity without additional computational cost. Building upon all of them, we propose a series of Pseudo \textbf{S}hifted \textbf{Win}dow DiTs (\textbf{Swin DiT}), accompanied by extensive experiments demonstrating their superior performance. For example, our proposed Swin-DiT-L achieves a 54%$\uparrow$ FID improvement over DiT-XL/2 while requiring less computational. https://github.com/wujiafu007/Swin-DiT
Abstract（参考訳）: 拡散変換器 (DiT) は, トランスアーキテクチャの導入により, 画像生成領域内での顕著な性能を実現する。従来、DiTは、高解像度画像を処理する際に計算コストが大幅にかかるシリアル等方的グローバル情報モデリング変換器を積み重ねて構築されている。我々は,従来想定されていたようなグローバル情報への強い依存を示さない空間画像生成を実証的に分析した。モデル内のほとんどの層は、大域的な計算における冗長性を示している。さらに、従来の注意機構は低周波慣性問題を示す。これらの問題に対処するため、大域的なモデル冗長性を根本的に緩和する、 \textbf{P}seudo \textbf{S}hifted \textbf{W}indow \textbf{A}ttention (PSWA)を提案する。 PSWAは、移動ウィンドウ操作をシミュレートし、適切なグローバルおよび高周波情報を補完する高周波ブリッジングブランチを用いて、ウィンドウアテンションを介して、中間的なグローバルローカル情報インタラクションを実現する。さらに,計算コストを伴わずに高次注目度類似性を捕捉するプログレッシブ・カバージュ・チャネル・アロケーション(PCCA)戦略を提案する。これらすべてに基づいて、Pseudo \textbf{S}hifted \textbf{Win}dow DiTs (\textbf{Swin DiT}) のシリーズを提案し、その優れた性能を示す広範な実験を行った。例えば、提案したSwin-DiT-Lは、より少ない計算で、DiT-XL/2よりも54%$\uparrow$ FIDの改善を実現している。 https://github.com/wujiafu007/Swin-DiT

関連論文リスト

Can We Achieve Efficient Diffusion without Self-Attention? Distilling Self-Attention into Convolutions [94.21989689001848]
従来の自己アテンションモジュールをピラミッド畳み込みブロック((Delta)ConvBlocks)に置き換えるための(Delta)ConvFusionを提案する。ローカライズされた畳み込み操作に注意パターンを蒸留し、他のコンポーネントを凍結させながら、(Delta)ConvFusionは、トランスフォーマーベースの処理に匹敵する性能を達成し、計算コストを6929$times$、LinFusionを5.42$times$の効率で上回る。
論文参考訳（メタデータ） (2025-04-30T03:57:28Z)
Contrast: A Hybrid Architecture of Transformers and State Space Models for Low-Level Vision [3.574664325523221]
textbfContrastは、textbfConvolutional、textbfTransformer、textbfState Spaceコンポーネントを組み合わせたハイブリッドSRモデルである。変換器と状態空間機構を統合することで、textbfContrastは各アプローチの欠点を補償し、グローバルコンテキストモデリングとピクセルレベルの精度を向上させる。
論文参考訳（メタデータ） (2025-01-23T03:34:14Z)
Qihoo-T2X: An Efficient Proxy-Tokenized Diffusion Transformer for Text-to-Any-Task [42.422925759342874]
本稿では,グローバルな視覚情報を効率的にモデル化するためのPT-DiT(Proxy-Tokenized Diffusion Transformer)を提案する。各トランスブロック内で、各時空間ウィンドウから平均化トークンを計算し、その領域のプロキシトークンとして機能する。また,スパースアテンション機構によって引き起こされる詳細モデリングの限界に対処するために,ウィンドウとシフトウインドウのアテンションを導入する。
論文参考訳（メタデータ） (2024-09-06T03:13:45Z)
HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution [70.52256118833583]
変換器ベースSRネットワークを階層変換器(HiT-SR)に変換する戦略を提案する。具体的には、一般的に使われている固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約する。大規模なウィンドウに必要となる計算量を考慮すると、窓の大きさに線形な複雑性を持つ空間チャネル相関法をさらに設計する。
論文参考訳（メタデータ） (2024-07-08T12:42:10Z)
FORA: Fast-Forward Caching in Diffusion Transformer Acceleration [39.51519525071639]
拡散変換器(DiT)は、高品質な画像やビデオを生成するための事実上の選択肢となっている。 Fast-FORward Caching (FORA) は拡散過程の反復特性を利用してDiTを加速するように設計されている。
論文参考訳（メタデータ） (2024-07-01T16:14:37Z)
CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文参考訳（メタデータ） (2023-12-14T01:33:18Z)
Exploring Frequency-Inspired Optimization in Transformer for Efficient Single Image Super-Resolution [32.29219284419944]
クロスリファインメント適応型特徴変調トランス(CRAFT) CRAFTの効率向上を目的とした周波数誘導後量子化(PTQ)手法を提案する。以上の結果より, CRAFTは現状の方法よりも優れていることが示唆された。
論文参考訳（メタデータ） (2023-08-09T15:38:36Z)
SGFormer: Simplifying and Empowering Transformers for Large-Graph Representations [75.71298846760303]
ノード特性予測ベンチマークにおいて,一層注意が驚くほど高い性能を示すことを示す。提案手法をSGFormer (Simplified Graph Transformer) と呼ぶ。提案手法は,大きなグラフ上にトランスフォーマーを構築する上で,独立性のある新たな技術パスを啓蒙するものである。
論文参考訳（メタデータ） (2023-06-19T08:03:25Z)
RFR-WWANet: Weighted Window Attention-Based Recovery Feature Resolution Network for Unsupervised Image Registration [7.446209993071451]
Swin変換器は、その計算効率と長距離モデリング能力のために、医用画像解析に注目を集めている。トランスフォーマーに基づく登録モデルは、複数のボクセルを単一のセマンティックトークンに結合する。このマージプロセスは変換器をモデルに制限し、粗い粒度の空間情報を生成する。本研究では, 高精度な空間情報提供を可能にするRFRNet(Recovery Feature Resolution Network)を提案する。
論文参考訳（メタデータ） (2023-05-07T09:57:29Z)
Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文参考訳（メタデータ） (2022-05-25T17:59:54Z)
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文参考訳（メタデータ） (2021-06-23T17:51:26Z)
Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文参考訳（メタデータ） (2021-05-23T12:44:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。