論文の概要: SPARTAN: Sparse Hierarchical Memory for Parameter-Efficient Transformers
- arxiv url: http://arxiv.org/abs/2211.16634v1
- Date: Tue, 29 Nov 2022 23:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 15:29:24.507426
- Title: SPARTAN: Sparse Hierarchical Memory for Parameter-Efficient Transformers
- Title(参考訳): spartan:パラメータ効率のよいトランスフォーマーのためのスパース階層メモリ
- Authors: Ameet Deshpande, Md Arafat Sultan, Anthony Ferritto, Ashwin Kalyan,
Karthik Narasimhan, Avirup Sil
- Abstract要約: SPARTANは、エッジデバイスのためのパラメータ効率(PE)と計算的に高速なアーキテクチャである。
トランスフォーマー層の後、階層的に整理されたスパースメモリを追加する。
数ショット設定で34%高速にトレーニングでき、アダプタの0.9ポイント以内で実行することができる。
- 参考スコア(独自算出の注目度): 29.721162097790646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning pre-trained language models (PLMs) achieves impressive
performance on a range of downstream tasks, and their sizes have consequently
been getting bigger. Since a different copy of the model is required for each
task, this paradigm is infeasible for storage-constrained edge devices like
mobile phones. In this paper, we propose SPARTAN, a parameter efficient (PE)
and computationally fast architecture for edge devices that adds hierarchically
organized sparse memory after each Transformer layer. SPARTAN freezes the PLM
parameters and fine-tunes only its memory, thus significantly reducing storage
costs by re-using the PLM backbone for different tasks. SPARTAN contains two
levels of memory, with only a sparse subset of parents being chosen in the
first level for each input, and children cells corresponding to those parents
being used to compute an output representation. This sparsity combined with
other architecture optimizations improves SPARTAN's throughput by over 90%
during inference on a Raspberry Pi 4 when compared to PE baselines (adapters)
while also outperforming the latter by 0.1 points on the GLUE benchmark.
Further, it can be trained 34% faster in a few-shot setting, while performing
within 0.9 points of adapters. Qualitative analysis shows that different parent
cells in SPARTAN specialize in different topics, thus dividing responsibility
efficiently.
- Abstract(参考訳): 微調整された事前学習言語モデル(PLM)は、下流タスクで印象的なパフォーマンスを実現し、その結果、そのサイズが大きくなる。
タスク毎にモデルの異なるコピーが必要であるため、このパラダイムは携帯電話のようなストレージに制限されたエッジデバイスには適用できない。
本稿では,各トランスフォーマー層の後,階層的に構成されたスパースメモリを付加するエッジデバイスのためのパラメータ効率(PE)と計算速度のよいアーキテクチャであるSPARTANを提案する。
SPARTANはPLMパラメータとメモリのみの微細構造を凍結し、異なるタスクのためにPLMバックボーンを再利用することでストレージコストを大幅に削減する。
SPARTANは2つのメモリレベルを含み、入力毎に第1のレベルで選択される親のスパースサブセットのみと、出力表現を計算するために使用される親に対応する子細胞である。
このスパーシリティと他のアーキテクチャ最適化を組み合わせることで、PEベースライン(アダプタ)と比較してRaspberry Pi 4での推論中にSPARTANのスループットが90%以上向上し、GLUEベンチマークでは後者よりも0.1ポイント向上した。
さらに、数ショット設定で34%高速にトレーニングでき、アダプタの0.9ポイント以内に実行することができる。
定性的分析により、SPARTANの異なる親細胞は異なるトピックを専門とし、効率的に責任を分割する。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - RMM: Reinforced Memory Management for Class-Incremental Learning [102.20140790771265]
クラスインクリメンタルラーニング(CIL)は、厳格な記憶予算の下で分類器を訓練する。
既存のメソッドは静的およびアドホックな戦略を使ってメモリ割り当てを行うが、これはしばしば準最適である。
本稿では,段階的な段階と異なるオブジェクトクラスに最適化された動的メモリ管理戦略を提案する。
論文 参考訳(メタデータ) (2023-01-14T00:07:47Z) - Resource-Efficient Separation Transformer [14.666016177212837]
本稿では,トランスフォーマーを用いた音声分離手法について,計算コストの削減による検討を行う。
私たちの主な貢献は、自己注意に基づくアーキテクチャであるResource-Efficient separation Transformer (RE-SepFormer)の開発です。
RE-SepFormerは、一般的なWSJ0-2MixとWHAM!データセットにおいて、因果設定と非因果設定の両方で競合するパフォーマンスに達する。
論文 参考訳(メタデータ) (2022-06-19T23:37:24Z) - LiteTransformerSearch: Training-free On-device Search for Efficient
Autoregressive Language Models [34.673688610935876]
モデルトレーニングを必要とせずに、レイテンシとパープレクシリティが最前線に現れることを示す。
我々は,多種多様なデバイス上での軽量トランスフォーマーサーチ (LTS) の評価を行った。
最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することができることを示す。
論文 参考訳(メタデータ) (2022-03-04T02:10:43Z) - Differentiable Random Access Memory using Lattices [0.0]
サイズに関係なく$O(1)$の異なるランダムアクセスメモリモジュールを導入する。
設計は選択された格子の点にエントリを格納し、対称性を利用して任意の点の最も近い近傍を効率的に計算する。
論文 参考訳(メタデータ) (2021-07-07T20:55:42Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。