論文の概要: MobileNMT: Enabling Translation in 15MB and 30ms
- arxiv url: http://arxiv.org/abs/2306.04235v1
- Date: Wed, 7 Jun 2023 08:25:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 15:39:10.358860
- Title: MobileNMT: Enabling Translation in 15MB and 30ms
- Title(参考訳): MobileNMT:15MBと30msで翻訳を実現する
- Authors: Ye Lin, Xiaohui Wang, Zhexi Zhang, Mingxuan Wang, Tong Xiao, Jingbo
Zhu
- Abstract要約: デバイス上で15MBと30msで翻訳できるMobileNMTを提案する。
モデルとエンジンの共設計により、既存のシステムと比較して47.0xのスピードを上げ、メモリの99.5%を節約し、BLEUの損失は11.6%に留まった。
- 参考スコア(独自算出の注目度): 53.75988363281843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying NMT models on mobile devices is essential for privacy, low latency,
and offline scenarios. For high model capacity, NMT models are rather large.
Running these models on devices is challenging with limited storage, memory,
computation, and power consumption. Existing work either only focuses on a
single metric such as FLOPs or general engine which is not good at
auto-regressive decoding. In this paper, we present MobileNMT, a system that
can translate in 15MB and 30ms on devices. We propose a series of principles
for model compression when combined with quantization. Further, we implement an
engine that is friendly to INT8 and decoding. With the co-design of model and
engine, compared with the existing system, we speed up 47.0x and save 99.5% of
memory with only 11.6% loss of BLEU. The code is publicly available at
https://github.com/zjersey/Lightseq-ARM.
- Abstract(参考訳): モバイルデバイスにNMTモデルをデプロイすることは、プライバシ、低レイテンシ、オフラインシナリオに不可欠である。
高モデル容量では、NMTモデルはかなり大きい。
これらのモデルをデバイスで実行するには、ストレージ、メモリ、計算、消費電力が限られている。
既存の作業は、FLOPsやジェネラルエンジンのような、自動回帰デコーディングが得意でない単一のメトリックにのみフォーカスする。
本稿では,デバイス上で15mb,30msの翻訳が可能なmobilenmtを提案する。
量子化と組み合わせたモデル圧縮のための一連の原理を提案する。
さらに、INT8やデコードに親しみやすいエンジンを実装します。
モデルとエンジンの共設計により、47.0倍のスピードアップと99.5%のメモリ節約が可能で、bleuの損失はわずか11.6%である。
コードはhttps://github.com/zjersey/Lightseq-ARMで公開されている。
関連論文リスト
- MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z) - QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。
本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文 参考訳(メタデータ) (2023-10-25T17:24:53Z) - Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud
Scale Production [7.056223012587321]
本稿では,スパースモデルの計算を高速化するために,いくつかの最適化手法を用いた高効率推論フレームワークを提案する。
既存のソリューションに比べて,コストが27%削減され,品質が大幅に向上した136倍のモデルをデプロイすることが可能です。
論文 参考訳(メタデータ) (2022-11-18T03:43:52Z) - MicroISP: Processing 32MP Photos on Mobile Devices with Deep Learning [114.66037224769005]
エッジデバイスに特化して設計された新しいMicroISPモデルを提案する。
提案したソリューションは,モバイルMLライブラリを使用して,最新のスマートフォン上で最大32MPの写真を処理できる。
モデルのアーキテクチャは柔軟で、計算能力の異なるデバイスに複雑性を調整することができる。
論文 参考訳(メタデータ) (2022-11-08T17:40:50Z) - AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for
Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。
既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。
計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文 参考訳(メタデータ) (2022-10-14T05:32:17Z) - MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision
Models [40.40784209977589]
本稿では、モビレ畳み込み(すなわち逆残差ブロック)とアテンションの上に構築されるニューラルネットワークのファミリーであるMOATについて述べる。
我々は、標準のTransformerブロックを移動式畳み込みブロックに置き換え、自己注意操作の前にさらに並べ替える。
概念的には単純なMOATネットワークは驚くほど有効であり、ImageNet-22KプリトレーニングでImageNet-1Kで89.1%の精度を実現している。
論文 参考訳(メタデータ) (2022-10-04T18:00:06Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Real-time Monocular Depth Estimation with Sparse Supervision on Mobile [2.5425323889482336]
近年、モバイルデバイスの普及に伴い、正確かつモバイルフレンドリーな深度モデルの重要性が高まっている。
キーとなる設計選択と研究によって、既存のアーキテクチャでさえ非常に競争力のあるパフォーマンスを達成できることが示されています。
モデルのバージョンは1Mパラメータを持つDIWで0.1208W、モバイルGPUで44FPSに達する。
論文 参考訳(メタデータ) (2021-05-25T16:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。