Fugu-MT 論文翻訳(概要): Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens

論文の概要: Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens

arxiv url: http://arxiv.org/abs/2305.04241v2
Date: Sat, 27 May 2023 04:17:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 00:30:24.732005
Title: Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens
Title（参考訳）: Vcc:重要なトークンを優先してトランスフォーマーを128万トン以上にスケールアップする
Authors: Zhanpeng Zeng, Cole Hawkins, Mingyi Hong, Aston Zhang, Nikolaos Pappas, Vikas Singh, Shuai Zheng
Abstract要約: 本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
参考スコア（独自算出の注目度）: 65.4435926060951
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers are central in modern natural language processing and computer vision applications. Despite recent works devoted to reducing the quadratic cost of such models (as a function of the sequence length), dealing with ultra long sequences (e.g., with more than 16K tokens) remains challenging. Applications such as answering questions based on a book or summarizing a scientific article are inefficient or infeasible. Here, we propose to significantly improve the efficiency of Transformers for ultra long sequences, by compressing the sequence into a much smaller representation at each layer. Specifically, by exploiting the fact that in many tasks, only a small subset of special tokens (we call VIP-tokens) are most relevant to the final prediction, we propose a VIP-token centric compression (VCC) scheme which selectively compresses the sequence based on their impact on approximating the representation of the VIP-tokens. Compared with competitive baselines, our algorithm is not only efficient (achieving more than $3\times$ efficiency gain compared to baselines on 4K and 16K lengths), but also offers competitive/better performance on a large number of tasks. Further, we show that our algorithm scales to 128K tokens (or more) while consistently offering accuracy improvement.
Abstract（参考訳）: トランスフォーマーは現代の自然言語処理とコンピュータビジョンアプリケーションの中心である。このようなモデルの2次コスト(シーケンス長の関数として)の削減に向けられた最近の研究にもかかわらず、超長いシーケンス(例えば16Kトークン)を扱うことは難しい。本に基づく質問への回答や科学記事の要約といった応用は非効率的あるいは実現不可能である。本稿では,超長列の変換器の効率を,各層でより小さな表現に圧縮することにより大幅に向上させる手法を提案する。具体的には、多くのタスクにおいて、VIPトークンの小さなサブセットのみが最終予測に最も関係しているという事実を利用して、VIPトークンの表現の近似に対する影響に基づいて、列を選択的に圧縮するVIPトークン中心圧縮(VCC)方式を提案する。競合するベースラインと比較して、我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインと比較して3ドル以上の効率向上を達成する)、多くのタスクにおいて競合/ベターパフォーマンスを提供する。さらに,アルゴリズムは128kトークン(あるいはそれ以上)までスケールし,一貫して精度を向上させる。

関連論文リスト

CipherPrune: Efficient and Scalable Private Transformer Inference [12.853162687405465]
暗号化プロトコルを使用したプライベートトランスフォーマー推論は、プライバシ保護機械学習のための有望なソリューションを提供する。しかしながら、実行時のオーバーヘッド(効率上の問題)と、長時間の入力を処理する上での課題に依然として直面している。我々は、効率的でスケーラブルなプライベート推論フレームワークであるcipheritCipherPruneを提案する。
論文参考訳（メタデータ） (2025-02-24T02:27:54Z)
Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文参考訳（メタデータ） (2024-05-16T03:26:06Z)
AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文参考訳（メタデータ） (2023-11-02T12:48:43Z)
CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文参考訳（メタデータ） (2023-05-17T03:19:18Z)
Learned Token Pruning for Transformers [39.181816379061374]
Learned Token Pruning ()メソッドは、データがトランスフォーマーの異なるレイヤを通過すると、冗長なトークンを減らす。複数のGLUEタスクに対して,提案手法の性能を広範囲に検証する。予備的な結果はTesla T4とIntel Haswellの1.4倍と1.9倍のスループット向上を示す。
論文参考訳（メタデータ） (2021-07-02T09:00:13Z)
DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。 DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文参考訳（メタデータ） (2021-06-03T17:57:41Z)
Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with Adaptive Sequence Length [40.35853878334764]
視覚変換器(ViT)は大規模画像認識において顕著な成功を収めた。精度と速度の適切なトレードオフを達成するため、トークンの数は16x16に実証的に設定される。入力画像ごとに適切な数のトークンを自動的に設定する動的変換器を提案する。
論文参考訳（メタデータ） (2021-05-31T16:04:10Z)
Nystr\"omformer: A Nystr\"om-Based Algorithm for Approximating Self-Attention [60.043273122786005]
我々は,シーケンス長の関数として優れたスケーラビリティを示すモデルであるNystr"omformerを提案する。 Nystr"omformerのスケーラビリティにより、アプリケーションは数千のトークンで長いシーケンスを実行できる。 GLUEベンチマークで複数のダウンストリームタスクの評価を行い、標準シーケンス長のレビューを行い、我々のNystrオムフォーマが標準トランスフォーマよりも相容れないか、あるいはいくつかのケースで若干改善されていることを確認した。
論文参考訳（メタデータ） (2021-02-07T20:06:59Z)
Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。 Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文参考訳（メタデータ） (2020-06-05T05:16:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。