論文の概要: Efficient model compression with Random Operation Access Specific Tile
(ROAST) hashing
- arxiv url: http://arxiv.org/abs/2207.10702v1
- Date: Thu, 21 Jul 2022 18:31:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:19:02.784333
- Title: Efficient model compression with Random Operation Access Specific Tile
(ROAST) hashing
- Title(参考訳): ランダム操作アクセス特定タイル(ROAST)ハッシュを用いた効率的なモデル圧縮
- Authors: Aditya Desai, Keren Zhou, Anshumali Shrivastava
- Abstract要約: 本稿では,Random Operation Access Specific Tile(ROAST)ハッシュ法を提案する。
ROASTでは、最初の圧縮BERTを提示します。
トランスフォーマーのようなユニバーサルアーキテクチャ上のこれらの圧縮レベルは、モバイルやエッジデバイスのようなリソース制約のあるデバイスへのSOTAモデル展開の将来を約束している。
- 参考スコア(独自算出の注目度): 35.67591281350068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancements in deep learning are often associated with increasing model
sizes. The model size dramatically affects the deployment cost and latency of
deep models. For instance, models like BERT cannot be deployed on edge devices
and mobiles due to their sheer size. As a result, most advances in Deep
Learning are yet to reach the edge. Model compression has sought much-deserved
attention in literature across natural language processing, vision, and
recommendation domains. This paper proposes a model-agnostic, cache-friendly
model compression approach: Random Operation Access Specific Tile (ROAST)
hashing. ROAST collapses the parameters by clubbing them through a lightweight
mapping. Notably, while clubbing these parameters, ROAST utilizes cache
hierarchies by aligning the memory access pattern with the parameter access
pattern. ROAST is up to $\sim 25 \times$ faster to train and $\sim 50 \times$
faster to infer than the popular parameter sharing method HashedNet.
Additionally, ROAST introduces global weight sharing, which is empirically and
theoretically superior to local weight sharing in HashedNet, and can be of
independent interest in itself. With ROAST, we present the first compressed
BERT, which is $100\times - 1000\times$ smaller but does not result in quality
degradation. These compression levels on universal architecture like
transformers are promising for the future of SOTA model deployment on
resource-constrained devices like mobile and edge devices
- Abstract(参考訳): ディープラーニングの進歩は、しばしばモデルサイズの増加に関連している。
モデルのサイズは、ディープモデルのデプロイメントコストとレイテンシに劇的に影響します。
例えば、bertのようなモデルは、そのサイズのため、エッジデバイスやモバイルにデプロイできない。
その結果、ディープラーニングのほとんどの進歩は、まだ限界に達していない。
モデル圧縮は、自然言語処理、ビジョン、レコメンデーションドメインにわたる文学において、大いに注目されている。
本稿では,Random Operation Access Specific Tile(ROAST)ハッシュ法を提案する。
ROASTは、軽量マッピングを通じてパラメータをクラブすることで、パラメータを分解します。
特に、これらのパラメータをクラブ化しながら、ROASTはメモリアクセスパターンとパラメータアクセスパターンを整列することでキャッシュ階層を利用する。
ROASTはトレーニングが高速な$\sim 25 \timesと、人気のあるパラメータ共有メソッドであるHashedNetよりも高速な$\sim 50 \timesである。
さらに、ROASTは、HashNetの局所的な重量共有よりも経験的かつ理論的に優れているグローバルな重量共有を導入し、それ自体に独立した関心を持つことができる。
ROASTでは、最初の圧縮BERT(100\times - 1000\times$)を提示するが、品質劣化は生じない。
トランスフォーマーのようなユニバーサルアーキテクチャ上のこれらの圧縮レベルは、モバイルやエッジデバイスのようなリソース制約のあるデバイスへのSOTAモデル展開の将来を約束している。
関連論文リスト
- A 7K Parameter Model for Underwater Image Enhancement based on Transmission Map Prior [13.453441079833627]
水中画像強調のための深層学習モデルは、軽量および有効両方の制限に直面します。
本稿では,軽量選択的注意ネットワーク (LSNet) を提案する。
提案モデルでは,類似の注意ベースモデルと比較してPSNRが97%,パラメータは7Kである。
論文 参考訳(メタデータ) (2024-05-25T11:58:24Z) - TensorGPT: Efficient Compression of Large Language Models based on Tensor-Train Decomposition [19.897367559948336]
行列-トレイン分解(TTD)に基づく学習自由モデル圧縮手法を提案する。
次に,本手法により抽出された低ランク構造を,典型的なローエンドデバイス(Raspberry Pi)の圧縮率,言語タスク性能,レイテンシの観点から検討する。
論文 参考訳(メタデータ) (2023-07-02T09:33:09Z) - Instant Soup: Cheap Pruning Ensembles in A Single Pass Can Draw Lottery
Tickets from Large Models [106.19385911520652]
Lottery Ticket hypothesis (LTH)とその変種は、パラメーターワークを生成する大規模な事前訓練モデルを作成するために利用されてきた。
LTHは反復的フルトレーニングと反復的マグニチュードプルーニング(IMP)のプルーニングルーチンによって著しく抑制される
Instant Soup Pruning (ISP) を提案する。
論文 参考訳(メタデータ) (2023-06-18T03:09:52Z) - ZipLM: Inference-Aware Structured Pruning of Language Models [56.52030193434863]
ZipLMと呼ばれる大規模言語モデル(LLM)に対する新しい構造化圧縮手法を提案する。
ZipLMは、所望のランタイムスピードアップのセットをマッチングしながら、最先端の精度-vs-スピードアップを実現する。
ZipLMはすべての設定で最先端の圧縮モデルを生成する。
論文 参考訳(メタデータ) (2023-02-07T18:55:28Z) - Learning to Collide: Recommendation System Model Compression with
Learned Hash Functions [4.6994057182972595]
ディープレコメンデーションモデルのキーとなる特徴は、埋め込みテーブルの膨大なメモリ要求である。
モデルサイズを減らすための一般的なテクニックは、すべてのカテゴリ変数識別子(ID)を小さな空間にハッシュすることである。
このハッシュにより、埋め込みテーブルに格納しなければならないユニークな表現の数が減少し、サイズが減少する。
我々は代わりに、意味的に類似したID間の衝突を促進する新しいマッピング関数であるLearned Hash Functionsを導入する。
論文 参考訳(メタデータ) (2022-03-28T06:07:30Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Random Offset Block Embedding Array (ROBE) for CriteoTB Benchmark MLPerf
DLRM Model : 1000$\times$ Compression and 2.7$\times$ Faster Inference [33.66462823637363]
最先端レコメンデーションモデル(State-the-art recommendation model)は、GPT-3やSwitch Transformerと競合する最大のモデルの一つである。
ディープラーニングレコメンデーションモデル(DLRM)は、それぞれのカテゴリ値に密着した埋め込みを学習することに由来する。
DLRMのモデル圧縮は勢いを増しており、最近コミュニティは印象的な圧縮結果を示している。
論文 参考訳(メタデータ) (2021-08-04T17:28:45Z) - You Only Compress Once: Towards Effective and Elastic BERT Compression
via Exploit-Explore Stochastic Nature Gradient [88.58536093633167]
既存のモデル圧縮アプローチでは、さまざまなハードウェアデプロイメントに対応するために、さまざまな制約にまたがる再圧縮や微調整が必要となる。
圧縮を一度行い、至るところに展開するための新しいアプローチであるYOCO-BERTを提案する。
最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
論文 参考訳(メタデータ) (2021-06-04T12:17:44Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - ROSITA: Refined BERT cOmpreSsion with InTegrAted techniques [10.983311133796745]
BERTファミリーの事前訓練された言語モデルは、幅広いNLPタスクで最先端のものを定義しています。
BERTベースのモデルの性能は、主に大量のパラメータによって駆動され、リソース制限されたシナリオへの適用を妨げる。
我々は,3種類の圧縮手法(重み付きプルーニング,低ランク分解,知識蒸留)を導入し,モデルアーキテクチャに関する様々な設計について検討する。
Refined BERT cOmpreSsion with InTegrAted Technique(ROSITA)と呼ばれる私たちの最高の圧縮モデルは、7.5倍小さいです。
論文 参考訳(メタデータ) (2021-03-21T11:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。