論文の概要: FIT: Far-reaching Interleaved Transformers
- arxiv url: http://arxiv.org/abs/2305.12689v2
- Date: Thu, 25 May 2023 16:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 10:43:12.806377
- Title: FIT: Far-reaching Interleaved Transformers
- Title(参考訳): FIT:遠縁インターリーブトランス
- Authors: Ting Chen and Lala Li
- Abstract要約: 本稿では,自己アテンションと適応計算を効率よく行うトランスフォーマーアーキテクチャを提案する。
ローカルレイヤは各グループ内のデータトークンで動作し、グローバルレイヤはより小さな潜在トークンで動作します。
FITは6400$times$6400イメージや16GBのメモリ容量で(パッチトークン化後の)160Kトークンなど、ギガビットスケールのデータをエンドツーエンドでトレーニングする可能性を示している。
- 参考スコア(独自算出の注目度): 15.302386132016496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present FIT: a transformer-based architecture with efficient
self-attention and adaptive computation. Unlike original transformers, which
operate on a single sequence of data tokens, we divide the data tokens into
groups, with each group being a shorter sequence of tokens. We employ two types
of transformer layers: local layers operate on data tokens within each group,
while global layers operate on a smaller set of introduced latent tokens. These
layers, comprising the same set of self-attention and feed-forward layers as
standard transformers, are interleaved, and cross-attention is used to
facilitate information exchange between data and latent tokens within the same
group. The attention complexity is $O(n^2)$ locally within each group of size
$n$, but can reach $O(L^{{4}/{3}})$ globally for sequence length of $L$. The
efficiency can be further enhanced by relying more on global layers that
perform adaptive computation using a smaller set of latent tokens. FIT is a
versatile architecture and can function as an encoder, diffusion decoder, or
autoregressive decoder. We provide initial evidence demonstrating its
effectiveness in high-resolution image understanding and generation tasks.
Notably, FIT exhibits potential in performing end-to-end training on
gigabit-scale data, such as 6400$\times$6400 images, or 160K tokens (after
patch tokenization), within a memory capacity of 16GB, without requiring
specific optimizations or model parallelism.
- Abstract(参考訳): 我々は,効率的なセルフアテンションと適応計算を備えたトランスフォーマーアーキテクチャを提案する。
データトークンを単一のシーケンスで操作するオリジナルのトランスフォーマーとは異なり、データトークンをグループに分割し、各グループをトークンのより短いシーケンスとする。
ローカルレイヤは各グループ内のデータトークンで動作し、グローバルレイヤは導入済みの潜在トークンのより小さなセットで動作します。
これらの層は、標準トランスフォーマーと同じセルフアテンション層とフィードフォワード層からなるが、インターリーブされ、同じグループ内のデータと潜在トークン間の情報交換を容易にするためにクロスアテンションが使用される。
注意の複雑さは、各サイズのグループ内で局所的に$o(n^2)$であるが、シーケンス長$l$でグローバルに$o(l^{{4}/{3}})$に達する。
より小さな潜在トークンセットを使用して適応計算を行うグローバルレイヤに依存することにより、効率をさらに向上することができる。
FITは汎用アーキテクチャであり、エンコーダ、拡散デコーダ、自動回帰デコーダとして機能する。
我々は,高分解能画像理解と生成タスクにおいてその効果を示す最初の証拠を提供する。
特に、FITは6400$\times$6400イメージや160Kトークン(パッチトークン化後の)などのギガビット規模のデータに対して、16GBのメモリ容量内で、特定の最適化やモデルの並列処理を必要とせずにエンドツーエンドのトレーニングを行う可能性がある。
関連論文リスト
- Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - ALGM: Adaptive Local-then-Global Token Merging for Efficient Semantic Segmentation with Plain Vision Transformers [4.379383278029336]
Adaptive Local-then-Global Merging (ALGM) は、平易な視覚変換器を用いたセグメンテーションネットワークのためのトークン削減手法である。
ALGMはスループットを最大100%改善し、平均IoUを最大+1.1まで向上させることができることを示す。
私たちのアプローチは推論中に適応的であり、アプリケーションによっては、同じモデルを最適な効率や精度で使用することができます。
論文 参考訳(メタデータ) (2024-06-14T11:31:21Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
Mask2Formerはその計算の50%をトランスフォーマーエンコーダでのみ使用する。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
本稿では,パフォーマンスの犠牲を最小限に抑えながら,計算量を大幅に削減するPro-SCALEを提案する。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - Dynamic Token-Pass Transformers for Semantic Segmentation [22.673910995773262]
セマンティックセグメンテーションのための動的トークン・パス・ビジョン・トランスフォーマー(DoViT)を導入する。
DoViTは、部分的に簡単なトークンを自己注意計算から徐々に停止させ、停止基準を満たすまでハードトークンを前進させ続ける。
提案手法は, 約40%$sim$ 60% FLOPsを低減し, mIoUの低下は, 各種セグメンテーション変圧器の0.8%以内である。
論文 参考訳(メタデータ) (2023-08-03T06:14:24Z) - LAIT: Efficient Multi-Segment Encoding in Transformers with
Layer-Adjustable Interaction [31.895986544484206]
変換器(LAIT)における層間相互作用について紹介する。
LAIT内では、セグメント化された入力は、まず独立に符号化され、次に共同で符号化される。
LAITは高い精度を保ちながら、多くのタスクにおけるFLOPの30~50%の注意を減らすことができる。
論文 参考訳(メタデータ) (2023-05-31T06:09:59Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。
実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-07T11:30:54Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。