論文の概要: Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens
- arxiv url: http://arxiv.org/abs/2305.04241v2
- Date: Sat, 27 May 2023 04:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 00:30:24.732005
- Title: Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens
- Title(参考訳): Vcc:重要なトークンを優先してトランスフォーマーを128万トン以上にスケールアップする
- Authors: Zhanpeng Zeng, Cole Hawkins, Mingyi Hong, Aston Zhang, Nikolaos
Pappas, Vikas Singh, Shuai Zheng
- Abstract要約: 本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。
我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 65.4435926060951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers are central in modern natural language processing and computer
vision applications. Despite recent works devoted to reducing the quadratic
cost of such models (as a function of the sequence length), dealing with ultra
long sequences (e.g., with more than 16K tokens) remains challenging.
Applications such as answering questions based on a book or summarizing a
scientific article are inefficient or infeasible. Here, we propose to
significantly improve the efficiency of Transformers for ultra long sequences,
by compressing the sequence into a much smaller representation at each layer.
Specifically, by exploiting the fact that in many tasks, only a small subset of
special tokens (we call VIP-tokens) are most relevant to the final prediction,
we propose a VIP-token centric compression (VCC) scheme which selectively
compresses the sequence based on their impact on approximating the
representation of the VIP-tokens. Compared with competitive baselines, our
algorithm is not only efficient (achieving more than $3\times$ efficiency gain
compared to baselines on 4K and 16K lengths), but also offers
competitive/better performance on a large number of tasks. Further, we show
that our algorithm scales to 128K tokens (or more) while consistently offering
accuracy improvement.
- Abstract(参考訳): トランスフォーマーは現代の自然言語処理とコンピュータビジョンアプリケーションの中心である。
このようなモデルの2次コスト(シーケンス長の関数として)の削減に向けられた最近の研究にもかかわらず、超長いシーケンス(例えば16Kトークン)を扱うことは難しい。
本に基づく質問への回答や科学記事の要約といった応用は非効率的あるいは実現不可能である。
本稿では,超長列の変換器の効率を,各層でより小さな表現に圧縮することにより大幅に向上させる手法を提案する。
具体的には、多くのタスクにおいて、VIPトークンの小さなサブセットのみが最終予測に最も関係しているという事実を利用して、VIPトークンの表現の近似に対する影響に基づいて、列を選択的に圧縮するVIPトークン中心圧縮(VCC)方式を提案する。
競合するベースラインと比較して、我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインと比較して3ドル以上の効率向上を達成する)、多くのタスクにおいて競合/ベターパフォーマンスを提供する。
さらに,アルゴリズムは128kトークン(あるいはそれ以上)までスケールし,一貫して精度を向上させる。
関連論文リスト
- LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Learned Token Pruning for Transformers [39.181816379061374]
Learned Token Pruning ()メソッドは、データがトランスフォーマーの異なるレイヤを通過すると、冗長なトークンを減らす。
複数のGLUEタスクに対して,提案手法の性能を広範囲に検証する。
予備的な結果はTesla T4とIntel Haswellの1.4倍と1.9倍のスループット向上を示す。
論文 参考訳(メタデータ) (2021-07-02T09:00:13Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with
Adaptive Sequence Length [40.35853878334764]
視覚変換器(ViT)は大規模画像認識において顕著な成功を収めた。
精度と速度の適切なトレードオフを達成するため、トークンの数は16x16に実証的に設定される。
入力画像ごとに適切な数のトークンを自動的に設定する動的変換器を提案する。
論文 参考訳(メタデータ) (2021-05-31T16:04:10Z) - Nystr\"omformer: A Nystr\"om-Based Algorithm for Approximating
Self-Attention [60.043273122786005]
我々は,シーケンス長の関数として優れたスケーラビリティを示すモデルであるNystr"omformerを提案する。
Nystr"omformerのスケーラビリティにより、アプリケーションは数千のトークンで長いシーケンスを実行できる。
GLUEベンチマークで複数のダウンストリームタスクの評価を行い、標準シーケンス長のレビューを行い、我々のNystrオムフォーマが標準トランスフォーマよりも相容れないか、あるいはいくつかのケースで若干改善されていることを確認した。
論文 参考訳(メタデータ) (2021-02-07T20:06:59Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。