論文の概要: ProFormer: Towards On-Device LSH Projection Based Transformers
- arxiv url: http://arxiv.org/abs/2004.05801v2
- Date: Sat, 24 Apr 2021 00:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 23:06:48.371754
- Title: ProFormer: Towards On-Device LSH Projection Based Transformers
- Title(参考訳): proformer: オンデバイスlshプロジェクションベースのトランスフォーマー
- Authors: Chinnadhurai Sankar, Sujith Ravi, Zornitsa Kozareva
- Abstract要約: ProFormerはプロジェクションベースのトランスフォーマーアーキテクチャで、より高速で軽量です。
我々はLSHプロジェクション層を用いて、ルックアップテーブルを埋め込むことなく、リアルタイムで単語表現を生成する。
また,NLSHワードプロジェクションの入力シーケンスをN/K表現のシーケンスに変換するために自己アテンションを用いたローカルプロジェクションアテンション(LPA)層を提案する。
- 参考スコア(独自算出の注目度): 31.12398554941849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: At the heart of text based neural models lay word representations, which are
powerful but occupy a lot of memory making it challenging to deploy to devices
with memory constraints such as mobile phones, watches and IoT. To surmount
these challenges, we introduce ProFormer -- a projection based transformer
architecture that is faster and lighter making it suitable to deploy to memory
constraint devices and preserve user privacy. We use LSH projection layer to
dynamically generate word representations on-the-fly without embedding lookup
tables leading to significant memory footprint reduction from O(V.d) to O(T),
where V is the vocabulary size, d is the embedding dimension size and T is the
dimension of the LSH projection representation.
We also propose a local projection attention (LPA) layer, which uses
self-attention to transform the input sequence of N LSH word projections into a
sequence of N/K representations reducing the computations quadratically by
O(K^2). We evaluate ProFormer on multiple text classification tasks and
observed improvements over prior state-of-the-art on-device approaches for
short text classification and comparable performance for long text
classification tasks. In comparison with a 2-layer BERT model, ProFormer
reduced the embedding memory footprint from 92.16 MB to 1.3 KB and requires 16
times less computation overhead, which is very impressive making it the fastest
and smallest on-device model.
- Abstract(参考訳): テキストベースのニューラルモデルの中心にはワード表現があり、強力だが多くのメモリを占有しているため、携帯電話やウォッチ、IoTといったメモリ制約のあるデバイスへのデプロイが困難である。
これらの課題を克服するために、proformer - プロジェクションベースのトランスフォーマーアーキテクチャを紹介します。これはより高速で軽量で、メモリ制約デバイスへのデプロイとユーザのプライバシの保持に適しています。
我々は、LSHプロジェクション層を用いて、LSHプロジェクション表を埋め込むことなく、動的に単語表現を生成する。これにより、メモリフットプリントがO(V.d)からO(T)に大幅に減少し、Vは語彙サイズ、dは埋め込み次元サイズ、TはLSHプロジェクション表現の次元となる。
また,NLSHワードプロジェクションの入力シーケンスを,自己アテンションを用いてN/K表現のシーケンスに変換することで,O(K^2)による計算を2次的に削減するローカルプロジェクションアテンション(LPA)層を提案する。
本稿では,複数のテキスト分類タスクにおけるproformerの評価と,先行する最先端のオン・ザ・デバイスアプローチによる短いテキスト分類と,長いテキスト分類タスクにおける同等の性能向上を観察した。
2層BERTモデルと比較して、ProFormerは組み込みメモリのフットプリントを92.16MBから1.3KBに削減し、計算オーバーヘッドを16倍削減した。
関連論文リスト
- Word Embedding Dimension Reduction via Weakly-Supervised Feature Selection [34.217661429283666]
語彙が大きくなるにつれて、ベクトル空間の次元は増加し、それが膨大なモデルサイズに繋がる。
本稿では,単語埋め込み次元の減少について検討する。
本稿では,WordFS という機能選択手法を提案する。
論文 参考訳(メタデータ) (2024-07-17T06:36:09Z) - HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models [96.76995840807615]
HiRes-LLaVAは、元の文脈情報や幾何学的情報を変更することなく、高解像度入力のサイズを処理するように設計された新しいフレームワークである。
HiRes-LLaVAは、2つの革新的なコンポーネントで構成されている: (i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を通じてグローバルとローカルの両方の特徴を効率的に抽出するSliceRestoreアダプタ、(ii)自分自身に基づいてビジョントークンを圧縮するセルフマイニングサンプリング。
論文 参考訳(メタデータ) (2024-07-11T17:42:17Z) - Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文 参考訳(メタデータ) (2023-10-06T01:59:19Z) - Towards A Unified View of Sparse Feed-Forward Network in Pretraining
Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。
我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。
言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文 参考訳(メタデータ) (2023-05-23T12:28:37Z) - Rediscovering Hashed Random Projections for Efficient Quantization of
Contextualized Sentence Embeddings [113.38884267189871]
エッジデバイス上でのトレーニングと推論は、しばしば計算上の制限のために効率的なセットアップを必要とする。
データ表現の事前計算とサーバへのキャッシュにより、エッジデバイスの広範な計算が軽減される。
ランダムな超平面射影を用いた単純かつ効果的な手法を提案する。
組込みは, 浮動小数点の94%-99%を保持できる様々な英語およびドイツ語の文分類タスクにおいて, トレーニングモデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-03-13T10:53:00Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。