論文の概要: FIT: Far-reaching Interleaved Transformers
- arxiv url: http://arxiv.org/abs/2305.12689v2
- Date: Thu, 25 May 2023 16:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 10:43:12.806377
- Title: FIT: Far-reaching Interleaved Transformers
- Title(参考訳): FIT:遠縁インターリーブトランス
- Authors: Ting Chen and Lala Li
- Abstract要約: 本稿では,自己アテンションと適応計算を効率よく行うトランスフォーマーアーキテクチャを提案する。
ローカルレイヤは各グループ内のデータトークンで動作し、グローバルレイヤはより小さな潜在トークンで動作します。
FITは6400$times$6400イメージや16GBのメモリ容量で(パッチトークン化後の)160Kトークンなど、ギガビットスケールのデータをエンドツーエンドでトレーニングする可能性を示している。
- 参考スコア(独自算出の注目度): 15.302386132016496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present FIT: a transformer-based architecture with efficient
self-attention and adaptive computation. Unlike original transformers, which
operate on a single sequence of data tokens, we divide the data tokens into
groups, with each group being a shorter sequence of tokens. We employ two types
of transformer layers: local layers operate on data tokens within each group,
while global layers operate on a smaller set of introduced latent tokens. These
layers, comprising the same set of self-attention and feed-forward layers as
standard transformers, are interleaved, and cross-attention is used to
facilitate information exchange between data and latent tokens within the same
group. The attention complexity is $O(n^2)$ locally within each group of size
$n$, but can reach $O(L^{{4}/{3}})$ globally for sequence length of $L$. The
efficiency can be further enhanced by relying more on global layers that
perform adaptive computation using a smaller set of latent tokens. FIT is a
versatile architecture and can function as an encoder, diffusion decoder, or
autoregressive decoder. We provide initial evidence demonstrating its
effectiveness in high-resolution image understanding and generation tasks.
Notably, FIT exhibits potential in performing end-to-end training on
gigabit-scale data, such as 6400$\times$6400 images, or 160K tokens (after
patch tokenization), within a memory capacity of 16GB, without requiring
specific optimizations or model parallelism.
- Abstract(参考訳): 我々は,効率的なセルフアテンションと適応計算を備えたトランスフォーマーアーキテクチャを提案する。
データトークンを単一のシーケンスで操作するオリジナルのトランスフォーマーとは異なり、データトークンをグループに分割し、各グループをトークンのより短いシーケンスとする。
ローカルレイヤは各グループ内のデータトークンで動作し、グローバルレイヤは導入済みの潜在トークンのより小さなセットで動作します。
これらの層は、標準トランスフォーマーと同じセルフアテンション層とフィードフォワード層からなるが、インターリーブされ、同じグループ内のデータと潜在トークン間の情報交換を容易にするためにクロスアテンションが使用される。
注意の複雑さは、各サイズのグループ内で局所的に$o(n^2)$であるが、シーケンス長$l$でグローバルに$o(l^{{4}/{3}})$に達する。
より小さな潜在トークンセットを使用して適応計算を行うグローバルレイヤに依存することにより、効率をさらに向上することができる。
FITは汎用アーキテクチャであり、エンコーダ、拡散デコーダ、自動回帰デコーダとして機能する。
我々は,高分解能画像理解と生成タスクにおいてその効果を示す最初の証拠を提供する。
特に、FITは6400$\times$6400イメージや160Kトークン(パッチトークン化後の)などのギガビット規模のデータに対して、16GBのメモリ容量内で、特定の最適化やモデルの並列処理を必要とせずにエンドツーエンドのトレーニングを行う可能性がある。
関連論文リスト
- Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens [65.4435926060951]
トランスフォーマーモデルは自然言語処理(NLP)とコンピュータビジョンの基礎となっている。
本全体に基づいた質問への回答、あるいは科学論文の要約は非効率または非実用的である。
本稿では,Transformerモデルが$n$の複雑性の依存性を,各層で$r$が$n$とは独立な表現に圧縮することで,大幅に低減することを提案する。
論文 参考訳(メタデータ) (2023-05-07T10:32:18Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - A multi-model-based deep learning framework for short text multiclass
classification with the imbalanced and extremely small data set [0.6875312133832077]
本稿では,不均衡かつ極めて小さなデータセットを持つ短文マルチクラス分類のための,マルチモデルに基づくディープラーニングフレームワークを提案する。
精度、リコール、精度、F1スコアの点で最先端のベースライン性能を維持している。
論文 参考訳(メタデータ) (2022-06-24T00:51:02Z) - PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。
実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-07T11:30:54Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。