論文の概要: Focus on the Core: Efficient Attention via Pruned Token Compression for Document Classification
- arxiv url: http://arxiv.org/abs/2406.01283v1
- Date: Mon, 3 Jun 2024 12:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 23:09:15.693882
- Title: Focus on the Core: Efficient Attention via Pruned Token Compression for Document Classification
- Title(参考訳): コアに焦点をあてる: 文書分類のためのPruned Token Compressionによる効率的な注意力
- Authors: Jungmin Yun, Mihyeon Kim, Youngbin Kim,
- Abstract要約: BERTのような事前訓練されたトランスフォーマーは計算コストのかかる自己保持機構に悩まされる。
トークンプルーニングとトークンの組み合わせという2つの戦略を統合することを提案する。
さまざまなデータセットによる実験は、ベースラインモデルよりも優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 6.660834045805309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based models have achieved dominant performance in numerous NLP tasks. Despite their remarkable successes, pre-trained transformers such as BERT suffer from a computationally expensive self-attention mechanism that interacts with all tokens, including the ones unfavorable to classification performance. To overcome these challenges, we propose integrating two strategies: token pruning and token combining. Token pruning eliminates less important tokens in the attention mechanism's key and value as they pass through the layers. Additionally, we adopt fuzzy logic to handle uncertainty and alleviate potential mispruning risks arising from an imbalanced distribution of each token's importance. Token combining, on the other hand, condenses input sequences into smaller sizes in order to further compress the model. By integrating these two approaches, we not only improve the model's performance but also reduce its computational demands. Experiments with various datasets demonstrate superior performance compared to baseline models, especially with the best improvement over the existing BERT model, achieving +5%p in accuracy and +5.6%p in F1 score. Additionally, memory cost is reduced to 0.61x, and a speedup of 1.64x is achieved.
- Abstract(参考訳): トランスフォーマーベースのモデルは、多くのNLPタスクにおいて、主要なパフォーマンスを実現している。
彼らの顕著な成功にもかかわらず、BERTのような事前訓練されたトランスフォーマーは、分類性能に好ましくないものを含む全てのトークンと相互作用する計算的に高価な自己保持機構に悩まされている。
これらの課題を克服するために、トークンプルーニングとトークンの組み合わせという2つの戦略を統合することを提案する。
トケンプルーニングは、アテンションメカニズムのキーと値において、レイヤを通過するときに重要でないトークンを排除します。
さらに,不確実性に対処するファジィ論理を採用し,各トークンの重要度の不均衡分布から生じる潜在的な誤計算リスクを軽減する。
一方、入力シーケンスをより小さなサイズに縮合させ、モデルをさらに圧縮する。
これら2つのアプローチを統合することで、モデルの性能を向上するだけでなく、計算要求を減らすことができる。
様々なデータセットを用いた実験は、ベースラインモデルよりも優れた性能を示し、特に既存のBERTモデルよりも優れた改善をしており、精度は+5%p、F1スコアは+5.6%である。
さらに、メモリコストを0.61倍に削減し、1.64倍のスピードアップを実現する。
関連論文リスト
- MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts大言語モデル(MoE-LLM)のためのトレーニング不要なMixture-CompressorであるMC-MoEを提案する。
MC-MoEは、専門家とトークンの両方の重要性を活用して極端な圧縮を実現する。
例えば、MC-MoEは2.54ビットで76.6%の圧縮を行い、平均精度損失は3.8%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Laughing Hyena Distillery: Extracting Compact Recurrences From
Convolutions [101.08706223326928]
近年のアテンションフリーシーケンスモデルの発展は、トランスフォーマーのコアにあるアテンション演算子の代替として、畳み込みに依存している。
本稿では,事前学習した長大な畳み込みアーキテクチャにおいて,トークン当たりの計算コストとメモリコストを$mathcal O(1)$にすることを提案する。
論文 参考訳(メタデータ) (2023-10-28T18:40:03Z) - Multi-Scale And Token Mergence: Make Your ViT More Efficient [3.087140219508349]
Vision Transformer (ViT) はコンピュータビジョン領域において一般的なモデルとして登場した。
より重要なトークンとマージすることで,非機密トークンからの情報を保持できる新しいトークンプルーニング手法を提案する。
提案手法は,DeiT-Sの精度は0.1%しか低下せず,計算コストの33%の大幅な削減を実現している。
論文 参考訳(メタデータ) (2023-06-08T02:58:15Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Beyond Attentive Tokens: Incorporating Token Importance and Diversity
for Efficient Vision Transformers [32.972945618608726]
視覚変換器は様々な視覚タスクにおいて大幅に改善されているが、トークン間の2次相互作用は計算効率を大幅に低下させた。
本稿では,トークン分離におけるトークンの重要性と多様性を共同で検討できる,効率的なトークン分離とマージ手法を提案する。
FLOPを40%削減した後,DeiT-Tの精度を0.1%向上させることができる。
論文 参考訳(メタデータ) (2022-11-21T09:57:11Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Token Dropping for Efficient BERT Pretraining [33.63507016806947]
本研究では,変圧器モデルの事前学習を高速化する簡易かつ効果的な「トーケンドロップ」手法を開発した。
我々は既に組み込まれているマスキング言語モデリング(MLM)の損失を利用して、計算オーバーヘッドのない重要でないトークンを識別する。
この単純なアプローチは、BERTの事前トレーニングコストを25%削減し、標準の下流タスクで同様の微調整性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T17:50:46Z) - Fine- and Coarse-Granularity Hybrid Self-Attention for Efficient BERT [22.904252855587348]
本稿では, 計算列長を漸進的に短縮することにより, コストを低減できる, 微細で粗い粒度ハイブリッド型自己アテンションを提案する。
FCAは従来の手法に比べて精度とFLOPのトレードオフが著しく優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T03:33:47Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。