論文の概要: Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task
- arxiv url: http://arxiv.org/abs/2409.04005v1
- Date: Fri, 6 Sep 2024 03:13:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 16:58:39.042483
- Title: Qihoo-T2X: An Efficiency-Focused Diffusion Transformer via Proxy Tokens for Text-to-Any-Task
- Title(参考訳): Qihoo-T2X:テキスト・ツー・アニータスクのためのプロキシトークンによる効率焦点拡散変換器
- Authors: Jing Wang, Ao Ma, Jiasong Feng, Dawei Leng, Yuhui Yin, Xiaodan Liang,
- Abstract要約: 本稿では,グローバルな視覚情報を効率的にモデル化するためのPT-DiT(Proxy Token Diffusion Transformer)を提案する。
各変圧器ブロックにおいて、各時空間ウィンドウから1つのトークンをランダムにサンプリングし、その領域のプロキシトークンとして機能する。
グローバルセマンティクスは、これらのプロキシトークンの自己アテンションを通じてキャプチャされ、その後、クロスアテンションを介してすべての潜在トークンに注入される。
- 参考スコア(独自算出の注目度): 42.422925759342874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The global self-attention mechanism in diffusion transformers involves redundant computation due to the sparse and redundant nature of visual information, and the attention map of tokens within a spatial window shows significant similarity. To address this redundancy, we propose the Proxy Token Diffusion Transformer (PT-DiT), which employs sparse representative token attention (where the number of representative tokens is much smaller than the total number of tokens) to model global visual information efficiently. Specifically, in each transformer block, we randomly sample one token from each spatial-temporal window to serve as a proxy token for that region. The global semantics are captured through the self-attention of these proxy tokens and then injected into all latent tokens via cross-attention. Simultaneously, we introduce window and shift window attention to address the limitations in detail modeling caused by the sparse attention mechanism. Building on the well-designed PT-DiT, we further develop the Qihoo-T2X family, which includes a variety of models for T2I, T2V, and T2MV tasks. Experimental results show that PT-DiT achieves competitive performance while reducing the computational complexity in both image and video generation tasks (e.g., a 48% reduction compared to DiT and a 35% reduction compared to Pixart-alpha). Our source code is available at https://github.com/360CVGroup/Qihoo-T2X.
- Abstract(参考訳): 拡散変圧器におけるグローバル自己保持機構は、視覚情報のスパースと冗長性に起因する冗長な計算を伴い、空間窓内のトークンの注意マップは、かなりの類似性を示している。
この冗長性に対処するため、グローバルな視覚情報を効率的にモデル化するために、疎い代表トークン注意(代表トークンの数はトークンの総数よりもはるかに少ない)を利用するプロキシトークン拡散変換器(PT-DiT)を提案する。
具体的には、各変圧器ブロックにおいて、各時空間ウィンドウから1つのトークンをランダムにサンプリングし、その領域のプロキシトークンとして機能する。
グローバルセマンティクスは、これらのプロキシトークンの自己アテンションを通じてキャプチャされ、その後、クロスアテンションを介してすべての潜在トークンに注入される。
同時に、スパースアテンション機構によって引き起こされる詳細モデリングの限界に対処するために、ウィンドウとシフトウインドウのアテンションを導入する。
PT-DiTに基づいて,T2I,T2V,T2MVタスクの様々なモデルを含むQihoo-T2Xファミリーをさらに発展させる。
実験の結果,PT-DiTは画像生成タスクと映像生成タスクの計算複雑性を減らし,競争性能が向上することがわかった(例:DiTの48%,Pixart-alphaの35%)。
ソースコードはhttps://github.com/360CVGroup/Qihoo-T2X.comで公開されています。
関連論文リスト
- Attamba: Attending To Multi-Token States [6.5676809841642125]
Attambaは、状態空間モデルを用いてトークンの塊を圧縮する新しいアーキテクチャである。
変換器のキーと値のプロジェクションをSSMに置き換えることで、モデルの品質が向上し、フレキシブルなトークンチャンキングが可能になる。
アタンバは可変長のチャンク列に注意を向けることができ、二次スケーリングと線形スケーリングのスムーズな遷移を可能にする。
論文 参考訳(メタデータ) (2024-11-26T18:52:06Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - LookupViT: Compressing visual information to a limited number of tokens [36.83826969693139]
ビジョントランスフォーマー (ViT) は、多くの業界グレードのビジョンソリューションのデファクト選択として登場した。
しかし、それらの推論コストは、トークン数の複雑さに悩まされる各レイヤにおける自己注意を計算するため、多くの設定で禁止される可能性がある。
本研究では、この情報空間を利用してViT推論コストを削減するLookupViTを紹介する。
論文 参考訳(メタデータ) (2024-07-17T17:22:43Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Xformer: Hybrid X-Shaped Transformer for Image Denoising [114.37510775636811]
本稿では,XformerというハイブリッドX字型視覚変換器について紹介する。
Xformerは、合成および実世界の画像復調タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-11T16:32:09Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。
実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-07T11:30:54Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。