論文の概要: Real-Time Optimized N-gram For Mobile Devices
- arxiv url: http://arxiv.org/abs/2101.03967v1
- Date: Thu, 7 Jan 2021 14:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 13:39:48.189369
- Title: Real-Time Optimized N-gram For Mobile Devices
- Title(参考訳): モバイルデバイスのリアルタイム最適化N-gram
- Authors: Sharmila Mani, Sourabh Vasant Gothe, Sourav Ghosh, Ajay Kumar Mishra,
Prakhar Kulshreshtha, Bhargavi M, Muthu Kumaran
- Abstract要約: 我々は,モバイルリソースを効率的に活用し,より高速なWord Completion (WC) とNext Word Prediction (NWP) を実現するために,エンドツーエンドのN-gramパイプラインを提案する。
Op-Ngramは、言語モデル(LM)-ROMサイズが37%向上し、LM-RAMサイズが76%、ロード時間が88%、平均提案時間が89%向上した。
- 参考スコア(独自算出の注目度): 1.339230763466954
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the increasing number of mobile devices, there has been continuous
research on generating optimized Language Models (LMs) for soft keyboard. In
spite of advances in this domain, building a single LM for low-end feature
phones as well as high-end smartphones is still a pressing need. Hence, we
propose a novel technique, Optimized N-gram (Op-Ngram), an end-to-end N-gram
pipeline that utilises mobile resources efficiently for faster Word Completion
(WC) and Next Word Prediction (NWP). Op-Ngram applies Stupid Backoff and
pruning strategies to generate a light-weight model. The LM loading time on
mobile is linear with respect to model size. We observed that Op-Ngram gives
37% improvement in Language Model (LM)-ROM size, 76% in LM-RAM size, 88% in
loading time and 89% in average suggestion time as compared to SORTED array
variant of BerkeleyLM. Moreover, our method shows significant performance
improvement over KenLM as well.
- Abstract(参考訳): モバイルデバイスの増加に伴い、ソフトキーボードに最適化された言語モデル(lms)を生成する研究が続いている。
この領域の進歩にもかかわらず、ローエンドのフィーチャーフォンとハイエンドのスマートフォン用に単一のLMを構築することは、いまだに厳しいニーズである。
そこで我々は,モバイルリソースを効率的に活用し,より高速なWord Completion (WC) とNext Word Prediction (NWP) を実現するための,新しい手法であるOptimized N-gram (Op-Ngram) を提案する。
Op-Ngramは、軽量モデルを生成するためにStupid Backoffとpruning戦略を適用します。
モバイルでのLMロード時間はモデルサイズに対して線形である。
その結果,Op-NgramはLanguage Model (LM)-ROMサイズが37%向上し,LM-RAMサイズが76%,ロード時間が88%,提案時間が89%向上した。
さらに,本手法は,KenLMよりも優れた性能を示す。
関連論文リスト
- SlimLM: An Efficient Small Language Model for On-Device Document Assistance [60.971107009492606]
SlimLMはモバイル端末上での文書支援タスクに最適化された一連のSLMである。
SlimLMはSlimPajama-627Bで事前訓練され、DocAssistで微調整されている。
我々はSlimLMを既存のSLMと比較し、同等または優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-15T04:44:34Z) - PhoneLM:an Efficient and Capable Small Language Model Family through Principled Pre-training [6.827011856777674]
デバイス上でのデプロイメントのための既存の小さな言語モデル(SLM)は、デバイスハードウェアの特性を考慮していない。
本研究は, SLM設計において, 事前学習前の(ほぼ)最適実行効率のアーキテクチャ探索という, シンプルかつ効果的な原理を提示する。
我々はPhoneLMファミリ(現在0.5Bと1.5Bバージョン)を開発し、同様のパラメータサイズを持つ人の間で、最先端の能力効率トレードオフを実現する。
論文 参考訳(メタデータ) (2024-11-07T02:19:00Z) - Ripple: Accelerating LLM Inference on Smartphones with Correlation-Aware Neuron Management [22.908079935647073]
大規模言語モデル(LLM)は、さまざまな領域で大きな成功を収めていますが、モバイルデバイスにデプロイすることは難しい課題です。
我々は、フラッシュメモリにおけるニューロン配置を最適化することにより、スマートフォン上でのLSM推論を高速化する新しいアプローチであるRippleを提案する。
私たちは、Rippleが最先端と比較して最大5.93倍のI/Oレイテンシ改善を実現していることを実証した。
論文 参考訳(メタデータ) (2024-10-25T03:01:19Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Parameter-Efficient Tuning Large Language Models for Graph Representation Learning [62.26278815157628]
Graph-awareを導入します。
GPEFT - グラフ表現学習のための新しい手法。
グラフニューラルネットワーク(GNN)を用いて、隣接するノードからグラフプロンプトに構造情報をエンコードする。
我々は8つの異なるテキストリッチグラフで実施した総合的な実験を通じて,リンク予測評価において hit@1 と Mean Reciprocal Rank (MRR) の平均 2% の改善を観察し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-04-28T18:36:59Z) - Confidant: Customizing Transformer-based LLMs via Collaborative Edge
Training [18.526329975259483]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて印象的な機能を示している。
コンピューティング、メモリ、エネルギー予算に制限のあるモバイルエッジデバイスにLSMをデプロイし、微調整することは困難である。
我々は,コモディティモバイルデバイス上での最先端のLCMをカスタマイズするためのマルチバックエンド協調学習フレームワークであるConfidantを提案する。
論文 参考訳(メタデータ) (2023-11-22T13:20:59Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - REPLUG: Retrieval-Augmented Black-Box Language Models [101.60145719119373]
REPLUGは、言語モデル(LM)をブラックボックスとして扱い、調整可能な検索モデルで拡張する検索拡張言語モデリングフレームワークである。
その結果,REPLUG は言語モデリングにおける GPT-3 (175B) の性能を6.3%向上させるとともに,5ショットMMLU における Codex の性能を5.1%向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-30T04:18:09Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。