論文の概要: U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2405.02730v1
- Date: Sat, 4 May 2024 18:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 18:39:58.456234
- Title: U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers
- Title(参考訳): U-DiT:U形拡散変圧器におけるダウンサンプルトークン
- Authors: Yuchuan Tian, Zhijun Tu, Hanting Chen, Jie Hu, Chao Xu, Yunhe Wang,
- Abstract要約: 我々は、U-NetアーキテクチャのDiTと等方性のあるDiTを比較することで、単純な玩具実験を行う。
U-Netアーキテクチャは、U-Netインダクティブバイアスの中でわずかに有利にしかならないことが判明した。
本論文では,U-DiTモデルの性能を示すために,一連のU-DiT(U-DiTs)を提案する。
- 参考スコア(独自算出の注目度): 28.936553798624136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) introduce the transformer architecture to diffusion tasks for latent-space image generation. With an isotropic architecture that chains a series of transformer blocks, DiTs demonstrate competitive performance and good scalability; but meanwhile, the abandonment of U-Net by DiTs and their following improvements is worth rethinking. To this end, we conduct a simple toy experiment by comparing a U-Net architectured DiT with an isotropic one. It turns out that the U-Net architecture only gain a slight advantage amid the U-Net inductive bias, indicating potential redundancies within the U-Net-style DiT. Inspired by the discovery that U-Net backbone features are low-frequency-dominated, we perform token downsampling on the query-key-value tuple for self-attention and bring further improvements despite a considerable amount of reduction in computation. Based on self-attention with downsampled tokens, we propose a series of U-shaped DiTs (U-DiTs) in the paper and conduct extensive experiments to demonstrate the extraordinary performance of U-DiT models. The proposed U-DiT could outperform DiT-XL/2 with only 1/6 of its computation cost. Codes are available at https://github.com/YuchuanTian/U-DiT.
- Abstract(参考訳): DiT(Diffusion Transformer)は、遅延空間画像生成のための拡散タスクにトランスフォーマーアーキテクチャを導入する。
一連の変圧器ブロックをチェーンする等方的アーキテクチャでは、DiTは競争性能と優れたスケーラビリティを示しているが、一方で、DiTによるU-Netの放棄とその次の改善は再考する価値がある。
この目的のために、U-NetアーキテクチャのDiTと等方的なDiTを比較することで、簡単な玩具実験を行う。
U-Netアーキテクチャは、U-Netインダクティブバイアスの中でわずかに有利にしかならず、U-NetスタイルのDiT内の潜在的な冗長性を示している。
U-Netのバックボーン機能が低周波に支配されているという発見に触発されて、クエリキー値タプルのトークンダウンサンプリングを行い、計算量を大幅に削減したにもかかわらず、さらなる改善を実現した。
ダウンサンプルトークンによる自己注意に基づいて,本論文では,U字型DiT(U-DiT)のシリーズを提案し,U-DiTモデルの異常な性能を示すための広範な実験を行う。
提案されたU-DiTは、計算コストのわずか1/6でDiT-XL/2を上回った。
コードはhttps://github.com/YuchuanTian/U-DiT.comで入手できる。
関連論文リスト
- HQ-DiT: Efficient Diffusion Transformer with FP4 Hybrid Quantization [10.307268005739202]
拡散変換器(DiT)は、最近、優れた視覚生成能力に対して大きな注目を集めている。
DiTは高いパラメータカウントと実装コストを持ち、携帯電話などのリソース制限されたデバイスでの使用を著しく制限している。
4ビット浮動小数点(FP)の精度をDiT推論の重みとアクティベーションの両面に利用した,効率的なポストトレーニング量子化法であるDiT(HQ-DiT)のハイブリッド浮動小点量子化を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:56:11Z) - Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。
より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-29T15:07:21Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - EIT: Efficiently Lead Inductive Biases to ViT [17.66805405320505]
ViT(Vision Transformer)は、畳み込みニューラルネットワークに固有の帰納バイアスに類似した特性に依存する。
本稿では, インダクティブバイアスをViT(EIT)に効率よく導くアーキテクチャを提案し, インダクティブバイアスをViTの両相に効果的に導くことができる。
ViTと比較して4つの一般的な小規模データセットでは、EITは平均12.6%の精度向上であり、パラメータやFLOPは少ない。
論文 参考訳(メタデータ) (2022-03-14T14:01:17Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Adaptive Test-Time Augmentation for Low-Power CPU [3.5473686344971416]
Test-Time Augmentation (TTA)テクニックは、推論時にそのような一般的な副作用を軽減することを目的とする。
本稿では,フィードフォワード回数を動的に制御するTTAの適応的実装であるAdapTTAを提案する。
商用ARM Cortex-A CPUにデプロイされた画像分類のための最新のConvNetsに関する実験結果では、AdapTTAが驚くべき遅延節約を達成している。
論文 参考訳(メタデータ) (2021-05-13T10:50:13Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。