Fugu-MT 論文翻訳(概要): MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases

論文の概要: MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases

arxiv url: http://arxiv.org/abs/2406.10290v1
Date: Wed, 12 Jun 2024 22:58:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 01:11:41.788511
Title: MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases
Title（参考訳）: MobileAIBench: オンデバイスユースケースのためのLLMとLMMのベンチマーク
Authors: Rithesh Murthy, Liangwei Yang, Juntao Tan, Tulika Manoj Awalgaonkar, Yilun Zhou, Shelby Heinecke, Sachin Desai, Jason Wu, Ran Xu, Sarah Tan, Jianguo Zhang, Zhiwei Liu, Shirley Kokane, Zuxin Liu, Ming Zhu, Huan Wang, Caiming Xiong, Silvio Savarese,
Abstract要約: モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。 MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
参考スコア（独自算出の注目度）: 81.70591346986582
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The deployment of Large Language Models (LLMs) and Large Multimodal Models (LMMs) on mobile devices has gained significant attention due to the benefits of enhanced privacy, stability, and personalization. However, the hardware constraints of mobile devices necessitate the use of models with fewer parameters and model compression techniques like quantization. Currently, there is limited understanding of quantization's impact on various task performances, including LLM tasks, LMM tasks, and, critically, trust and safety. There is a lack of adequate tools for systematically testing these models on mobile devices. To address these gaps, we introduce MobileAIBench, a comprehensive benchmarking framework for evaluating mobile-optimized LLMs and LMMs. MobileAIBench assesses models across different sizes, quantization levels, and tasks, measuring latency and resource consumption on real devices. Our two-part open-source framework includes a library for running evaluations on desktops and an iOS app for on-device latency and hardware utilization measurements. Our thorough analysis aims to accelerate mobile AI research and deployment by providing insights into the performance and feasibility of deploying LLMs and LMMs on mobile platforms.
Abstract（参考訳）: モバイルデバイスへのLLM(Large Language Models)とLMM(Large Multimodal Models)の展開は、プライバシー、安定性、パーソナライゼーションの強化による大きな注目を集めている。しかし、モバイルデバイスのハードウェア制約は、より少ないパラメータを持つモデルの使用と量子化のようなモデル圧縮技術を必要とする。現在、LLMタスク、LMMタスク、そして批判的に、信頼と安全を含む様々なタスクパフォーマンスに対する量子化の影響について、限定的な理解がなされている。モバイルデバイス上でこれらのモデルを体系的にテストするための適切なツールが不足している。これらのギャップに対処するために,モバイル最適化LLMとLMMを評価するための総合的なベンチマークフレームワークであるMobileAIBenchを紹介する。 MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。私たちの2つのオープンソースフレームワークには、デスクトップで評価を実行するためのライブラリと、デバイス上のレイテンシとハードウェア利用の測定のためのiOSアプリが含まれています。我々の徹底的な分析は、モバイルプラットフォームにLLMとLMMをデプロイすることのパフォーマンスと実現可能性に関する洞察を提供することで、モバイルAIの研究と展開を加速することを目的としています。

関連論文リスト

Mobile-MMLU: A Mobile Intelligence Language Understanding Benchmark [45.28023118459497]
モバイルインテリジェンスに適した大規模ベンチマークデータセットであるMobile-MMLUを紹介する。 80のモバイル関連分野にわたる16,186の質問で構成され、現実的なモバイルシナリオでLLMのパフォーマンスを評価するように設計されている。挑戦的なサブセットであるMobile-MMLU-Proは、MMLU-Proと同じようなサイズで高度な評価を提供するが、我々の標準のフルセットよりもはるかに難しい。
論文参考訳（メタデータ） (2025-03-26T17:59:56Z)
Are We There Yet? A Measurement Study of Efficiency for LLM Applications on Mobile Devices [5.926813659185372]
小型の大規模言語モデル(LLM)は、大きなモデルに比べて品質に制限があるにもかかわらず、強力なモバイルデバイス上で正常に動作することができる。小型のLDMだけが強力なモバイルデバイス上で正常に動作するが、大型のモデルに比べて品質に制限がある。
論文参考訳（メタデータ） (2025-03-10T16:27:17Z)
Benchmarking Large and Small MLLMs [71.78055760441256]
大規模なマルチモーダル言語モデル(MLLM)は、マルチモーダルコンテンツの理解と生成において顕著な進歩を遂げている。しかし、そのデプロイメントは、遅い推論、高い計算コスト、デバイス上のアプリケーションに対する非現実性など、重大な課題に直面している。 LLavaシリーズモデルとPhi-3-Visionによって実証された小さなMLLMは、より高速な推論、デプロイメントコストの削減、ドメイン固有のシナリオを扱う能力を備えた有望な代替手段を提供する。
論文参考訳（メタデータ） (2025-01-04T07:44:49Z)
SlimLM: An Efficient Small Language Model for On-Device Document Assistance [60.971107009492606]
SlimLMはモバイル端末上での文書支援タスクに最適化された一連のSLMである。 SlimLMはSlimPajama-627Bで事前訓練され、DocAssistで微調整されている。我々はSlimLMを既存のSLMと比較し、同等または優れた性能を示す。
論文参考訳（メタデータ） (2024-11-15T04:44:34Z)
A Survey of Small Language Models [104.80308007044634]
小言語モデル (SLM) は, 計算資源の最小化による言語タスクの効率化と性能の向上により, ますます重要になってきている。本稿では,SLMのアーキテクチャ,トレーニング技術,モデル圧縮技術に着目した総合的な調査を行う。
論文参考訳（メタデータ） (2024-10-25T23:52:28Z)
Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文参考訳（メタデータ） (2024-10-21T17:58:20Z)
PalmBench: A Comprehensive Benchmark of Compressed Large Language Models on Mobile Platforms [11.87161637895978]
ユーザがモバイルデバイス上で大きな言語モデルを評価することができる軽量でオールインワンな自動ベンチマークフレームワークを紹介します。ハードウェア能力の異なる複数のモバイルプラットフォームに対して、様々な量子化構成(重みとアクティベーションの両方)の異なる様々な人気のあるLCMのベンチマークを提供する。
論文参考訳（メタデータ） (2024-10-05T03:37:07Z)
Large Language Model Performance Benchmarking on Mobile Platforms: A Thorough Evaluation [10.817783356090027]
大規模言語モデル(LLM)は、私たちの仕事や日常生活のあらゆる側面にますます統合されています。ユーザのプライバシに関する懸念が高まり、これらのモデルがローカルに展開される傾向が強まっている。急速に普及しているアプリケーションとして、市販のモバイルデバイスのパフォーマンスを懸念しています。
論文参考訳（メタデータ） (2024-10-04T17:14:59Z)
On-Device Language Models: A Comprehensive Review [26.759861320845467]
資源制約のあるデバイスに計算コストの高い大規模言語モデルをデプロイする際の課題について検討する。論文は、デバイス上での言語モデル、その効率的なアーキテクチャ、および最先端の圧縮技術について考察する。主要モバイルメーカーによるオンデバイス言語モデルのケーススタディは、実世界の応用と潜在的な利益を実証している。
論文参考訳（メタデータ） (2024-08-26T03:33:36Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
A Performance Evaluation of a Quantized Large Language Model on Various Smartphones [0.0]
本稿では,Apple iPhoneの様々なモデルに対するデバイス上での大規模言語モデル (LLM) 推論の実現可能性と性能について検討する。資源制限装置上でのマルチビリオンパラメータLDMの動作に関する既存文献を活用し, 高性能LCMの熱的効果と相互作用速度について検討した。実世界のパフォーマンス結果を提示し、デバイス上での推論機能に関する洞察を提供する。
論文参考訳（メタデータ） (2023-12-19T10:19:39Z)
MLPerf Mobile Inference Benchmark [11.883357894242668]
erferf Mobileは、業界メンバーと学術研究者によって開発された、業界標準のオープンソースモバイルベンチマークである。まず,コンピュータビジョンと自然言語処理のための"out-of-the-box"推論性能ベンチマークをモバイルデバイス上で提供するアプリを開発した。
論文参考訳（メタデータ） (2020-12-03T23:29:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。