論文の概要: Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens
- arxiv url: http://arxiv.org/abs/2305.04241v1
- Date: Sun, 7 May 2023 10:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 16:51:45.595546
- Title: Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens
- Title(参考訳): Vcc:重要なトークンを優先してトランスフォーマーを128万トン以上にスケールアップする
- Authors: Zhanpeng Zeng, Cole Hawkins, Mingyi Hong, Aston Zhang, Nikolaos
Pappas, Vikas Singh, Shuai Zheng
- Abstract要約: トランスフォーマーモデルは自然言語処理(NLP)とコンピュータビジョンの基礎となっている。
本全体に基づいた質問への回答、あるいは科学論文の要約は非効率または非実用的である。
本稿では,Transformerモデルが$n$の複雑性の依存性を,各層で$r$が$n$とは独立な表現に圧縮することで,大幅に低減することを提案する。
- 参考スコア(独自算出の注目度): 65.4435926060951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models are foundational to natural language processing (NLP) and
computer vision. Despite various recent works devoted to reducing the quadratic
cost of such models (as a function of the sequence length $n$), dealing with
ultra long sequences efficiently (e.g., with more than 16K tokens) remains
challenging. Applications such as answering questions based on an entire book
or summarizing a scientific article are inefficient or infeasible. In this
paper, we propose to significantly reduce the dependency of a Transformer
model's complexity on $n$, by compressing the input into a representation whose
size $r$ is independent of $n$ at each layer. Specifically, by exploiting the
fact that in many tasks, only a small subset of special tokens (we call
VIP-tokens) are most relevant to the final prediction, we propose a VIP-token
centric compression (Vcc) scheme which selectively compresses the input
sequence based on their impact on approximating the representation of these
VIP-tokens. Compared with competitive baselines, the proposed algorithm not
only is efficient (achieving more than $3\times$ efficiency improvement
compared to baselines on 4K and 16K lengths), but also achieves competitive or
better performance on a large number of tasks. Further, we show that our
algorithm can be scaled to 128K tokens (or more) while consistently offering
accuracy improvement.
- Abstract(参考訳): トランスフォーマーモデルは自然言語処理(NLP)とコンピュータビジョンの基礎となっている。
このようなモデルの二次コストの低減(シーケンス長$n$の関数として)に向けられた最近の様々な研究にもかかわらず、超長いシーケンス(例えば、16Kトークン以上)を効率的に扱うことは困難である。
本全体に基づいた質問への回答や科学論文の要約といった応用は、非効率または非実用的である。
本稿では,Transformerモデルが$n$の複雑性の依存性を,各層で$r$が$n$とは独立な表現に圧縮することで,大幅に低減することを提案する。
具体的には、多くのタスクにおいて、VIPトークンの小さなサブセットのみが最終予測に最も関係しているという事実を利用して、VIPトークンの表現の近似に対する影響に基づいて入力シーケンスを選択的に圧縮するVIPトークン中心圧縮(Vcc)方式を提案する。
競合するベースラインと比較して、提案アルゴリズムは効率的である(4Kと16Kのベースラインと比較して3ドル以上の効率改善を実現する)だけでなく、多数のタスクにおいて競争力や性能の向上も達成している。
さらに,アルゴリズムを128kトークン(あるいはそれ以上)に拡張し,精度を一貫して向上できることを示す。
関連論文リスト
- LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Learned Token Pruning for Transformers [39.181816379061374]
Learned Token Pruning ()メソッドは、データがトランスフォーマーの異なるレイヤを通過すると、冗長なトークンを減らす。
複数のGLUEタスクに対して,提案手法の性能を広範囲に検証する。
予備的な結果はTesla T4とIntel Haswellの1.4倍と1.9倍のスループット向上を示す。
論文 参考訳(メタデータ) (2021-07-02T09:00:13Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with
Adaptive Sequence Length [40.35853878334764]
視覚変換器(ViT)は大規模画像認識において顕著な成功を収めた。
精度と速度の適切なトレードオフを達成するため、トークンの数は16x16に実証的に設定される。
入力画像ごとに適切な数のトークンを自動的に設定する動的変換器を提案する。
論文 参考訳(メタデータ) (2021-05-31T16:04:10Z) - Nystr\"omformer: A Nystr\"om-Based Algorithm for Approximating
Self-Attention [60.043273122786005]
我々は,シーケンス長の関数として優れたスケーラビリティを示すモデルであるNystr"omformerを提案する。
Nystr"omformerのスケーラビリティにより、アプリケーションは数千のトークンで長いシーケンスを実行できる。
GLUEベンチマークで複数のダウンストリームタスクの評価を行い、標準シーケンス長のレビューを行い、我々のNystrオムフォーマが標準トランスフォーマよりも相容れないか、あるいはいくつかのケースで若干改善されていることを確認した。
論文 参考訳(メタデータ) (2021-02-07T20:06:59Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。