論文の概要: WebLLM: A High-Performance In-Browser LLM Inference Engine
- arxiv url: http://arxiv.org/abs/2412.15803v1
- Date: Fri, 20 Dec 2024 11:24:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:21:35.989585
- Title: WebLLM: A High-Performance In-Browser LLM Inference Engine
- Title(参考訳): WebLLM: 高性能ブラウザ内LCM推論エンジン
- Authors: Charlie F. Ruan, Yucheng Qin, Xun Zhou, Ruihang Lai, Hongyi Jin, Yixin Dong, Bohan Hou, Meng-Shiun Yu, Yiyan Zhai, Sudeep Agarwal, Hangrui Cao, Siyuan Feng, Tianqi Chen,
- Abstract要約: WebLLMはオープンソースのフレームワークで、Webブラウザで高性能なLLM推論を可能にする。
WebLLMは、Webアプリケーションにシームレスに統合するためのOpenAIスタイルのAPIを提供する。
WebLLMは、同じデバイス上で80%のネイティブパフォーマンスを維持することができる。
- 参考スコア(独自算出の注目度): 9.771248136952039
- License:
- Abstract: Advancements in large language models (LLMs) have unlocked remarkable capabilities. While deploying these models typically requires server-grade GPUs and cloud-based inference, the recent emergence of smaller open-source models and increasingly powerful consumer devices have made on-device deployment practical. The web browser as a platform for on-device deployment is universally accessible, provides a natural agentic environment, and conveniently abstracts out the different backends from diverse device vendors. To address this opportunity, we introduce WebLLM, an open-source JavaScript framework that enables high-performance LLM inference entirely within web browsers. WebLLM provides an OpenAI-style API for seamless integration into web applications, and leverages WebGPU for efficient local GPU acceleration and WebAssembly for performant CPU computation. With machine learning compilers MLC-LLM and Apache TVM, WebLLM leverages optimized WebGPU kernels, overcoming the absence of performant WebGPU kernel libraries. Evaluations show that WebLLM can retain up to 80% native performance on the same device, with room to further close the gap. WebLLM paves the way for universally accessible, privacy-preserving, personalized, and locally powered LLM applications in web browsers. The code is available at: https://github.com/mlc-ai/web-llm.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、目覚ましい能力を解き放ちました。
これらのモデルをデプロイするには、通常、サーバーグレードのGPUとクラウドベースの推論を必要とするが、最近の小さなオープンソースモデルと、ますます強力なコンシューマデバイスが登場し、デバイス上のデプロイを実用的になった。
デバイス上のデプロイのためのプラットフォームとしてのWebブラウザは、普遍的にアクセス可能であり、自然なエージェント環境を提供し、さまざまなデバイスベンダからさまざまなバックエンドを便利に抽象化する。
この機会に対処するため,オープンソースのJavaScriptフレームワークであるWebLLMを紹介した。
WebLLMは、Webアプリケーションにシームレスに統合するためのOpenAIスタイルのAPIを提供し、WebGPUを効率的なローカルGPUアクセラレーションに、WebAssemblyをパフォーマンスCPU計算に活用する。
機械学習コンパイラのMLC-LLMとApache TVMでは、WebLLMは最適化されたWebGPUカーネルを活用する。
評価によると、WebLLMは同じデバイス上で最大80%のネイティブパフォーマンスを維持することができ、ギャップをさらに埋める余地がある。
WebLLMは、Webブラウザで、普遍的にアクセス可能で、プライバシー保護、パーソナライズされ、ローカルに駆動されるLLMアプリケーションのための道を開く。
コードは、https://github.com/mlc-ai/web-llm.comで入手できる。
関連論文リスト
- OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments [87.41051677852231]
マルチモーダルエージェントのための,第1世代のスケーラブルな実コンピュータ環境であるOSWorldを紹介する。
OSWorldは、オープンエンドのコンピュータタスクを評価する統合されたコンピュータ環境として機能する。
オープンドメインの実際のWebおよびデスクトップアプリケーション、OSファイルI/O、複数のアプリケーションにまたがる369のコンピュータタスクのベンチマークを作成します。
論文 参考訳(メタデータ) (2024-04-11T17:56:05Z) - VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? [115.60866817774641]
MLLM(Multimodal Large Language Model)は、Web関連のタスクにおいて有望であることを示す。
Webドメインにおけるパフォーマンス評価は、包括的なベンチマークが欠如しているため、依然として課題である。
benchは、さまざまなWebタスクにわたるMLLMの機能を評価するために設計されたマルチモーダルベンチマークである。
論文 参考訳(メタデータ) (2024-04-09T02:29:39Z) - Anatomizing Deep Learning Inference in Web Browsers [17.63663828498732]
ブラウザ内推論の総合的なパフォーマンス測定を,これまでに初めて行った。
提案手法は,ブラウザ内推論(応答性,滑らか性,推測精度)を測定するための新しい指標を提案する。
ブラウザ内推論は、CPUでは平均16.9倍、GPUでは4.9倍の遅延差を示す。
論文 参考訳(メタデータ) (2024-02-08T08:02:57Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - Empowering In-Browser Deep Learning Inference on Edge Devices with Just-in-Time Kernel Optimizations [30.477092899633785]
本稿では,先駆的なブラウザ推論システム nnJIT について述べる。
nnJITは、エッジデバイス向けに最適化されたコンピューティングカーネルのジャスト・イン・タイム(JIT)自動生成を可能にする。
その結果、nJITは既存のベースラインと比較して30秒で最大8.2倍高速に達成できることがわかった。
論文 参考訳(メタデータ) (2023-09-16T12:29:25Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - A Real-World WebAgent with Planning, Long Context Understanding, and
Program Synthesis [69.15016747150868]
本稿では,WebAgentについて紹介する。WebAgentは自己経験から学習し,実際のWebサイト上でタスクを完了させるエージェントである。
WebAgentは、指示を標準のサブ命令に分解し、長いHTMLドキュメントをタスク関連スニペットに要約し、ウェブサイトで作用する計画である。
我々は、我々のモジュラーレシピが実際のWebサイトの成功を50%以上改善し、HTML-T5が様々なHTML理解タスクを解決する最良のモデルであることを実証的に実証した。
論文 参考訳(メタデータ) (2023-07-24T14:56:30Z) - WebSHAP: Towards Explaining Any Machine Learning Models Anywhere [13.883867498610172]
我々は,最新のモデルに依存しない説明可能性技術 SHAP を Web 環境に適用する最初のブラウザ内ツールである WebSHAP を提案する。
我々のオープンソースツールは、クライアントサイドのハードウェア機能を利用するWebGLのようなモダンなWeb技術で開発されています。
論文 参考訳(メタデータ) (2023-03-16T17:56:02Z) - Multi-model Machine Learning Inference Serving with GPU Spatial
Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。
これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。
本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T04:46:46Z) - TensorFlow Lite Micro: Embedded Machine Learning on TinyML Systems [5.188829601887422]
組み込みデバイス上でのディープラーニング推論は、小さな組み込みデバイスが一様であることから、無数のアプリケーションで溢れている分野である。
組み込みデバイス上でのディープラーニング推論は、小さな組み込みデバイスが一様であることから、無数のアプリケーションで溢れている分野である。
組み込みシステム上でディープラーニングモデルを実行するための,オープンソースのML推論フレームワークであるLite Microを紹介した。
論文 参考訳(メタデータ) (2020-10-17T00:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。