論文の概要: PiT: Progressive Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2505.13219v3
- Date: Wed, 06 Aug 2025 11:28:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:08.610035
- Title: PiT: Progressive Diffusion Transformer
- Title(参考訳): PiT: プログレッシブ拡散変換器
- Authors: Jiafu Wu, Yabiao Wang, Jian Li, Jinlong Peng, Yun Cao, Chengjie Wang, Jiangning Zhang,
- Abstract要約: Pseudo textbfProgressive Dtextbfiffusion textbfTransformer (textbfPiT)を提案する。
提案したPiT-Lは,演算量が少なく,DiT-XL/2よりも54%$uparrow$FIDの改善を実現している。
- 参考スコア(独自算出の注目度): 50.46345527963736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) achieve remarkable performance within image generation via the transformer architecture. Conventionally, DiTs are constructed by stacking serial isotropic global modeling transformers, which face significant quadratic computational cost. However, through empirical analysis, we find that DiTs do not rely as heavily on global information as previously believed. In fact, most layers exhibit significant redundancy in global computation. Additionally, conventional attention mechanisms suffer from low-frequency inertia, limiting their efficiency. To address these issues, we propose Pseudo Shifted Window Attention (PSWA), which fundamentally mitigates global attention redundancy. PSWA achieves moderate global-local information through window attention. It further utilizes a high-frequency bridging branch to simulate shifted window operations, which both enrich the high-frequency information and strengthen inter-window connections. Furthermore, we propose the Progressive Coverage Channel Allocation (PCCA) strategy that captures high-order attention without additional computational cost. Based on these innovations, we propose a series of Pseudo \textbf{P}rogressive D\textbf{i}ffusion \textbf{T}ransformer (\textbf{PiT}). Our extensive experiments show their superior performance; for example, our proposed PiT-L achieves 54\%$\uparrow$ FID improvement over DiT-XL/2 while using less computation.
- Abstract(参考訳): 拡散変換器(DiT)は変換器アーキテクチャを用いて画像生成において顕著な性能を発揮する。
従来、DiTは2次計算コストに直面するシリアル等方的グローバルモデリング変換器を積み重ねて構築されている。
しかし、実証分析により、DiTは以前信じられていたようなグローバルな情報に大きく依存していないことがわかった。
実際、ほとんどの層は、大域的な計算において大きな冗長性を示す。
さらに、従来の注意機構は低周波慣性に悩まされ、効率が制限される。
これらの課題に対処するために,世界的注目の冗長性を根本的に緩和するPseudo Shifted Window Attention (PSWA)を提案する。
PSWAは、ウィンドウアテンションを通して、適度なグローバルローカル情報を達成する。
さらに、高周波ブリッジブランチを使用して、シフトしたウィンドウ操作をシミュレートし、高周波情報を強化し、ウィンドウ間接続を強化する。
さらに,計算コストを伴わずに高次注意を捉えるPCCA(Progressive Coverage Channel Allocation)戦略を提案する。
これらの革新に基づいて、Pseudo \textbf{P}rogressive D\textbf{i}ffusion \textbf{T}ransformer (\textbf{PiT})を提案する。
例えば、提案したPiT-Lは、より少ない計算をしながら、DiT-XL/2よりも54\%$\uparrow$FIDの改善を実現している。
関連論文リスト
- Can We Achieve Efficient Diffusion without Self-Attention? Distilling Self-Attention into Convolutions [94.21989689001848]
従来の自己アテンションモジュールをピラミッド畳み込みブロック((Delta)ConvBlocks)に置き換えるための(Delta)ConvFusionを提案する。
ローカライズされた畳み込み操作に注意パターンを蒸留し、他のコンポーネントを凍結させながら、(Delta)ConvFusionは、トランスフォーマーベースの処理に匹敵する性能を達成し、計算コストを6929$times$、LinFusionを5.42$times$の効率で上回る。
論文 参考訳(メタデータ) (2025-04-30T03:57:28Z) - Contrast: A Hybrid Architecture of Transformers and State Space Models for Low-Level Vision [3.574664325523221]
textbfContrastは、textbfConvolutional、textbfTransformer、textbfState Spaceコンポーネントを組み合わせたハイブリッドSRモデルである。
変換器と状態空間機構を統合することで、textbfContrastは各アプローチの欠点を補償し、グローバルコンテキストモデリングとピクセルレベルの精度を向上させる。
論文 参考訳(メタデータ) (2025-01-23T03:34:14Z) - Qihoo-T2X: An Efficient Proxy-Tokenized Diffusion Transformer for Text-to-Any-Task [42.422925759342874]
本稿では,グローバルな視覚情報を効率的にモデル化するためのPT-DiT(Proxy-Tokenized Diffusion Transformer)を提案する。
各トランスブロック内で、各時空間ウィンドウから平均化トークンを計算し、その領域のプロキシトークンとして機能する。
また,スパースアテンション機構によって引き起こされる詳細モデリングの限界に対処するために,ウィンドウとシフトウインドウのアテンションを導入する。
論文 参考訳(メタデータ) (2024-09-06T03:13:45Z) - HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution [70.52256118833583]
変換器ベースSRネットワークを階層変換器(HiT-SR)に変換する戦略を提案する。
具体的には、一般的に使われている固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約する。
大規模なウィンドウに必要となる計算量を考慮すると、窓の大きさに線形な複雑性を持つ空間チャネル相関法をさらに設計する。
論文 参考訳(メタデータ) (2024-07-08T12:42:10Z) - FORA: Fast-Forward Caching in Diffusion Transformer Acceleration [39.51519525071639]
拡散変換器(DiT)は、高品質な画像やビデオを生成するための事実上の選択肢となっている。
Fast-FORward Caching (FORA) は拡散過程の反復特性を利用してDiTを加速するように設計されている。
論文 参考訳(メタデータ) (2024-07-01T16:14:37Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Exploring Frequency-Inspired Optimization in Transformer for Efficient Single Image Super-Resolution [32.29219284419944]
クロスリファインメント適応型特徴変調トランス(CRAFT)
CRAFTの効率向上を目的とした周波数誘導後量子化(PTQ)手法を提案する。
以上の結果より, CRAFTは現状の方法よりも優れていることが示唆された。
論文 参考訳(メタデータ) (2023-08-09T15:38:36Z) - SGFormer: Simplifying and Empowering Transformers for Large-Graph Representations [75.71298846760303]
ノード特性予測ベンチマークにおいて,一層注意が驚くほど高い性能を示すことを示す。
提案手法をSGFormer (Simplified Graph Transformer) と呼ぶ。
提案手法は,大きなグラフ上にトランスフォーマーを構築する上で,独立性のある新たな技術パスを啓蒙するものである。
論文 参考訳(メタデータ) (2023-06-19T08:03:25Z) - RFR-WWANet: Weighted Window Attention-Based Recovery Feature Resolution
Network for Unsupervised Image Registration [7.446209993071451]
Swin変換器は、その計算効率と長距離モデリング能力のために、医用画像解析に注目を集めている。
トランスフォーマーに基づく登録モデルは、複数のボクセルを単一のセマンティックトークンに結合する。
このマージプロセスは変換器をモデルに制限し、粗い粒度の空間情報を生成する。
本研究では, 高精度な空間情報提供を可能にするRFRNet(Recovery Feature Resolution Network)を提案する。
論文 参考訳(メタデータ) (2023-05-07T09:57:29Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。