論文の概要: Porting Large Language Models to Mobile Devices for Question Answering
- arxiv url: http://arxiv.org/abs/2404.15851v1
- Date: Wed, 24 Apr 2024 12:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 19:10:55.768107
- Title: Porting Large Language Models to Mobile Devices for Question Answering
- Title(参考訳): 質問応答のためのモバイルデバイスへの大規模言語モデル移植
- Authors: Hannes Fassold,
- Abstract要約: 我々は、どのようにして最先端のLarge Language Modelsをモバイルデバイスに移植したかを説明した。
LLM推論には、柔軟で自己完結したC++フレームワークであるllamaフレームワークを使用します。
実験結果から,Galaxy S21スマートフォン上でのLCM推論は対話的な速度で動作していることがわかった。
- 参考スコア(独自算出の注目度): 1.0878040851637998
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deploying Large Language Models (LLMs) on mobile devices makes all the capabilities of natural language processing available on the device. An important use case of LLMs is question answering, which can provide accurate and contextually relevant answers to a wide array of user queries. We describe how we managed to port state of the art LLMs to mobile devices, enabling them to operate natively on the device. We employ the llama.cpp framework, a flexible and self-contained C++ framework for LLM inference. We selected a 6-bit quantized version of the Orca-Mini-3B model with 3 billion parameters and present the correct prompt format for this model. Experimental results show that LLM inference runs in interactive speed on a Galaxy S21 smartphone and that the model delivers high-quality answers to user queries related to questions from different subjects like politics, geography or history.
- Abstract(参考訳): モバイルデバイスにLLM(Large Language Models)をデプロイすることで、デバイス上で自然言語処理のすべての機能が利用できるようになる。
LLMの重要なユースケースは質問応答であり、幅広いユーザクエリに対して正確でコンテキスト的に関連する回答を提供することができる。
我々は、どのようにして最先端のLCMをモバイルデバイスに移植し、デバイス上でネイティブに動作させたかを説明した。
LLM推論には、柔軟で自己完結したC++フレームワークであるllama.cppフレームワークを使用します。
我々は、30億のパラメータを持つOrca-Mini-3Bモデルの6ビット量子化バージョンを選択し、このモデルの正しいプロンプトフォーマットを提示した。
実験結果から,LLM推論はGalaxy S21スマートフォン上で対話的な速度で動作し,政治や地理,歴史など,さまざまな分野の質問に対する高品質な回答が得られた。
関連論文リスト
- SlimLM: An Efficient Small Language Model for On-Device Document Assistance [60.971107009492606]
SlimLMはモバイル端末上での文書支援タスクに最適化された一連のSLMである。
SlimLMはSlimPajama-627Bで事前訓練され、DocAssistで微調整されている。
我々はSlimLMを既存のSLMと比較し、同等または優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-15T04:44:34Z) - Large Language Model Performance Benchmarking on Mobile Platforms: A Thorough Evaluation [10.817783356090027]
大規模言語モデル(LLM)は、私たちの仕事や日常生活のあらゆる側面にますます統合されています。
ユーザのプライバシに関する懸念が高まり、これらのモデルがローカルに展開される傾向が強まっている。
急速に普及しているアプリケーションとして、市販のモバイルデバイスのパフォーマンスを懸念しています。
論文 参考訳(メタデータ) (2024-10-04T17:14:59Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - QuickLLaMA: Query-aware Inference Acceleration for Large Language Models [94.82978039567236]
大規模言語モデルに対するクエリ対応推論(Q-LLM)を導入する。
Q-LLMは、人間の認知に似た広範囲なシーケンスを処理するように設計されている。
特定のウィンドウサイズ内で関連する情報を正確にキャプチャし、クエリに対して正確な回答を提供する。
論文 参考訳(メタデータ) (2024-06-11T17:55:03Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - Large Language Models for Expansion of Spoken Language Understanding Systems to New Languages [0.20971479389679337]
Spoken Language Understanding(SLU)モデルは、Alexa、Bixby、Google Assistantなどの音声アシスタント(VA)のコアコンポーネントである。
本稿では,Large Language Models (LLM) を利用して,SLUシステムを新しい言語に拡張するパイプラインを提案する。
当社のアプローチは,mBERTモデルを用いたクラウドシナリオにおいて,主要なマルチ言語SLUデータセットであるMultiATIS++ベンチマークを改善した。
論文 参考訳(メタデータ) (2024-04-03T09:13:26Z) - LLMs for Robotic Object Disambiguation [21.101902684740796]
本研究は,LLMが複雑な意思決定課題の解決に適していることを明らかにする。
我々の研究の重要な焦点は、LLMのオブジェクトの曖昧化能力である。
我々は,LLMのあいまいなクエリを提示する能力を改善するために,数発のプロンプトエンジニアリングシステムを開発した。
論文 参考訳(メタデータ) (2024-01-07T04:46:23Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Prompting Is Programming: A Query Language for Large Language Models [5.8010446129208155]
我々はLMP(Language Model Programming)という新しいアイデアを提示する。
LMPは、純粋なテキストプロンプトからテキストプロンプトとスクリプティングの直感的な組み合わせまで、言語モデルを一般化する。
LMQLは、さまざまな最先端のプロンプトメソッドを直感的にキャプチャできることを示す。
論文 参考訳(メタデータ) (2022-12-12T18:09:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。