Fugu-MT 論文翻訳(概要): MobileNMT: Enabling Translation in 15MB and 30ms

論文の概要: MobileNMT: Enabling Translation in 15MB and 30ms

arxiv url: http://arxiv.org/abs/2306.04235v1
Date: Wed, 7 Jun 2023 08:25:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-08 15:39:10.358860
Title: MobileNMT: Enabling Translation in 15MB and 30ms
Title（参考訳）: MobileNMT:15MBと30msで翻訳を実現する
Authors: Ye Lin, Xiaohui Wang, Zhexi Zhang, Mingxuan Wang, Tong Xiao, Jingbo Zhu
Abstract要約: デバイス上で15MBと30msで翻訳できるMobileNMTを提案する。モデルとエンジンの共設計により、既存のシステムと比較して47.0xのスピードを上げ、メモリの99.5%を節約し、BLEUの損失は11.6%に留まった。
参考スコア（独自算出の注目度）: 53.75988363281843
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deploying NMT models on mobile devices is essential for privacy, low latency, and offline scenarios. For high model capacity, NMT models are rather large. Running these models on devices is challenging with limited storage, memory, computation, and power consumption. Existing work either only focuses on a single metric such as FLOPs or general engine which is not good at auto-regressive decoding. In this paper, we present MobileNMT, a system that can translate in 15MB and 30ms on devices. We propose a series of principles for model compression when combined with quantization. Further, we implement an engine that is friendly to INT8 and decoding. With the co-design of model and engine, compared with the existing system, we speed up 47.0x and save 99.5% of memory with only 11.6% loss of BLEU. The code is publicly available at https://github.com/zjersey/Lightseq-ARM.
Abstract（参考訳）: モバイルデバイスにNMTモデルをデプロイすることは、プライバシ、低レイテンシ、オフラインシナリオに不可欠である。高モデル容量では、NMTモデルはかなり大きい。これらのモデルをデバイスで実行するには、ストレージ、メモリ、計算、消費電力が限られている。既存の作業は、FLOPsやジェネラルエンジンのような、自動回帰デコーディングが得意でない単一のメトリックにのみフォーカスする。本稿では,デバイス上で15mb,30msの翻訳が可能なmobilenmtを提案する。量子化と組み合わせたモデル圧縮のための一連の原理を提案する。さらに、INT8やデコードに親しみやすいエンジンを実装します。モデルとエンジンの共設計により、47.0倍のスピードアップと99.5%のメモリ節約が可能で、bleuの損失はわずか11.6%である。コードはhttps://github.com/zjersey/Lightseq-ARMで公開されている。

関連論文リスト

70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文参考訳（メタデータ） (2023-12-28T08:21:24Z)
QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文参考訳（メタデータ） (2023-10-25T17:24:53Z)
Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud Scale Production [7.056223012587321]
本稿では,スパースモデルの計算を高速化するために,いくつかの最適化手法を用いた高効率推論フレームワークを提案する。既存のソリューションに比べて,コストが27%削減され,品質が大幅に向上した136倍のモデルをデプロイすることが可能です。
論文参考訳（メタデータ） (2022-11-18T03:43:52Z)
MicroISP: Processing 32MP Photos on Mobile Devices with Deep Learning [114.66037224769005]
エッジデバイスに特化して設計された新しいMicroISPモデルを提案する。提案したソリューションは,モバイルMLライブラリを使用して,最新のスマートフォン上で最大32MPの写真を処理できる。モデルのアーキテクチャは柔軟で、計算能力の異なるデバイスに複雑性を調整することができる。
論文参考訳（メタデータ） (2022-11-08T17:40:50Z)
AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文参考訳（メタデータ） (2022-10-14T05:32:17Z)
MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision Models [40.40784209977589]
本稿では、モビレ畳み込み(すなわち逆残差ブロック)とアテンションの上に構築されるニューラルネットワークのファミリーであるMOATについて述べる。我々は、標準のTransformerブロックを移動式畳み込みブロックに置き換え、自己注意操作の前にさらに並べ替える。概念的には単純なMOATネットワークは驚くほど有効であり、ImageNet-22KプリトレーニングでImageNet-1Kで89.1%の精度を実現している。
論文参考訳（メタデータ） (2022-10-04T18:00:06Z)
On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文参考訳（メタデータ） (2022-06-30T17:59:08Z)
Real-time Monocular Depth Estimation with Sparse Supervision on Mobile [2.5425323889482336]
近年、モバイルデバイスの普及に伴い、正確かつモバイルフレンドリーな深度モデルの重要性が高まっている。キーとなる設計選択と研究によって、既存のアーキテクチャでさえ非常に競争力のあるパフォーマンスを達成できることが示されています。モデルのバージョンは1Mパラメータを持つDIWで0.1208W、モバイルGPUで44FPSに達する。
論文参考訳（メタデータ） (2021-05-25T16:33:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。