論文の概要: Llamas on the Web: Memory-Efficient, Performance-Portable, and Multi-Precision LLM Inference with WebGPU
- arxiv url: http://arxiv.org/abs/2605.20706v1
- Date: Wed, 20 May 2026 05:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.481883
- Title: Llamas on the Web: Memory-Efficient, Performance-Portable, and Multi-Precision LLM Inference with WebGPU
- Title(参考訳): Web上のLlamas: WebGPUによるメモリ効率、パフォーマンスポータブル、マルチ精度LLM推論
- Authors: Reese Levine, Rithik Sharma, Nikhil Jain, Abhijit Ramesh, Zheyuan Chen, Neha Abbas, James Contini, Tyler Sorensen,
- Abstract要約: Llamas on the Web (LlamaWeb)は、ラマ用のWebGPUバックエンドである。
我々の設計は静的メモリ計画と効率的なモデルローディングによってメモリオーバーヘッドを大幅に削減する。
我々はLlamaWebを8ベンダから16デバイスで評価し、10の言語モデルと4つのモデルウェイトフォーマットからデータを収集した。
- 参考スコア(独自算出の注目度): 0.5340189314359047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Running language models in the browser presents a unique opportunity to build efficient, private, and portable AI applications, but requires contending with constrained memory availability and heterogeneous hardware targets. To realize this opportunity, we present Llamas on the Web (LlamaWeb), a WebGPU backend for llama.cpp that enables memory-efficient and performance-portable LLM inference across a wide range of model weight formats in the browser. Our design significantly reduces memory overhead through static memory planning and efficient model loading, addresses cross-device variability through a tunable kernel library, and introduces templated GPU kernels that support performant implementations of numerous quantization formats, enabling broad model support and extensibility to new formats. We evaluate LlamaWeb on 16 devices from 8 vendors, collecting data from 10 language models and four model weight formats. We compare LlamaWeb against existing browser-based LLM frameworks and find that LlamaWeb requires 29-33% less memory across several combinations of device, browser, and operating system. We also evaluate LlamaWeb's performance against these frameworks and find that it increases decode throughput by 45-69% across four GPUs from separate vendors. In addition, we compare LlamaWeb's performance against other llama.cpp backends, where it is competitive with and even beats vendor-specific backend performance on some devices.
- Abstract(参考訳): ブラウザで言語モデルを実行することは、効率的でプライベートでポータブルなAIアプリケーションを構築するためのユニークな機会を提供するが、制約付きメモリ可用性とヘテロジニアスなハードウェアターゲットと競合する必要がある。
この機会を実現するため、Llamas on the Web (LlamaWeb) は llama.cpp 用の WebGPU バックエンドである。
我々の設計では、静的メモリ計画と効率的なモデルローディングによるメモリオーバーヘッドを大幅に削減し、チューニング可能なカーネルライブラリによるクロスデバイス変数に対処し、多数の量子化フォーマットのパフォーマンス実装をサポートするテンプレート付きGPUカーネルを導入し、幅広いモデルサポートと新しいフォーマットの拡張を可能にする。
我々はLlamaWebを8ベンダから16デバイスで評価し、10の言語モデルと4つのモデルウェイトフォーマットからデータを収集した。
LlamaWebと既存のブラウザベースのLLMフレームワークを比較すると、デバイス、ブラウザ、オペレーティングシステムの組み合わせで、LlamaWebのメモリは29~33%削減される。
また、これらのフレームワークに対してLlamaWebのパフォーマンスを評価し、異なるベンダーの4つのGPUに対して、デコードスループットを45~69%向上させています。
さらに、LlamaWebのパフォーマンスを他のllama.cppバックエンドと比較します。
関連論文リスト
- MemLoRA: Distilling Expert Adapters for On-Device Memory Systems [71.32550994522738]
メモリ拡張大言語モデル(LLM)は対話中に顕著な一貫性を示す。
MemLoRAは、小さなVision-Language Modelを統合する新しいメモリシステムである。
VLM統合MemLoRA-Vはキャプションベースのアプローチで大幅に改善されている。
論文 参考訳(メタデータ) (2025-12-04T12:56:30Z) - Flash-VStream: Efficient Real-Time Understanding for Long Video Streams [64.25549822010372]
Flash-VStreamは、非常に長いビデオを処理し、リアルタイムでユーザークエリに応答できるビデオ言語モデルである。
既存のモデルと比較して、Flash-VStreamは推論遅延を大幅に削減する。
論文 参考訳(メタデータ) (2025-06-30T13:17:49Z) - Learning Semantics, Not Addresses: Runtime Neural Prefetching for Far Memory [5.122853300811336]
アプリケーションセマンティクスをランタイムメモリレイアウトから切り離してディープラーニングを活用する,Linuxベースの初の遠メモリシステムであるFarSightを紹介した。
4つのデータ集約ワークロードで、FarSightは最先端の3.6倍のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-05-31T04:27:22Z) - FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving [9.386969461835433]
FlashInferは、大きな言語モデル(LLM)のためのカスタマイズ可能で効率的なアテンションエンジンである
ブロックスパースフォーマットと構成可能なフォーマットを使用して、KV-cacheストレージの不均一性に取り組むことで、メモリアクセスの最適化と冗長性の低減を実現している。
また、Just-In-TimeJITコンパイルによるさまざまな設定への適応を可能にする、カスタマイズ可能なアテンションテンプレートも提供する。
論文 参考訳(メタデータ) (2025-01-02T02:02:20Z) - WebLLM: A High-Performance In-Browser LLM Inference Engine [9.771248136952039]
WebLLMはオープンソースのフレームワークで、Webブラウザで高性能なLLM推論を可能にする。
WebLLMは、Webアプリケーションにシームレスに統合するためのOpenAIスタイルのAPIを提供する。
WebLLMは、同じデバイス上で80%のネイティブパフォーマンスを維持することができる。
論文 参考訳(メタデータ) (2024-12-20T11:24:13Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - LLM-Inference-Bench: Inference Benchmarking of Large Language Models on AI Accelerators [1.1028525384019312]
LLM(Large Language Models)は、複数のドメインにまたがる画期的な進歩を推進し、テキスト生成アプリケーションに一般的に使われている。
LLMのハードウェア推論性能を評価するための総合ベンチマークスイートであるLLM-Inference-Benchを紹介する。
ベンチマークの結果、さまざまなモデル、ハードウェアプラットフォーム、推論フレームワークの長所と短所が明らかになりました。
論文 参考訳(メタデータ) (2024-10-31T18:34:59Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。