論文の概要: NITRO: LLM Inference on Intel Laptop NPUs
- arxiv url: http://arxiv.org/abs/2412.11053v1
- Date: Sun, 15 Dec 2024 05:15:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:01:46.426264
- Title: NITRO: LLM Inference on Intel Laptop NPUs
- Title(参考訳): NITRO:Intel Laptop NPU上でのLLM推論
- Authors: Anthony Fei, Mohamed S. Abdelfattah,
- Abstract要約: 2023年、IntelはCPU、GPU、NPUシステムオンチップを備えたMeteor LakeというコードネームのIntel Core Ultraプロセッサをリリースした。
IntelのOpenVINOフレームワークによるNPUのサポートは、静的モデル推論に限定されている。
NITROはOpenVINO上に構築されたPythonベースのフレームワークで,NPU上でのテキストおよびチャット生成をサポートする。
- 参考スコア(独自算出の注目度): 4.257269905476281
- License:
- Abstract: Large Language Models (LLMs) have become essential tools in natural language processing, finding large usage in chatbots such as ChatGPT and Gemini, and are a central area of research. A particular area of interest includes designing hardware specialized for these AI applications, with one such example being the neural processing unit (NPU). In 2023, Intel released the Intel Core Ultra processor with codename Meteor Lake, featuring a CPU, GPU, and NPU system-on-chip. However, official software support for the NPU through Intel's OpenVINO framework is limited to static model inference. The dynamic nature of autoregressive token generation in LLMs is therefore not supported out of the box. To address this shortcoming, we present NITRO (NPU Inference for Transformers Optimization), a Python-based framework built on top of OpenVINO to support text and chat generation on NPUs. In this paper, we discuss in detail the key modifications made to the transformer architecture to enable inference, some performance benchmarks, and future steps towards improving the package. The code repository for NITRO can be found here: https://github.com/abdelfattah-lab/nitro.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ChatGPTやGeminiといったチャットボットにおいて、自然言語処理において欠かせないツールとなり、研究の中心となっている。
特定の分野には、これらのAIアプリケーションに特化したハードウェアの設計が含まれており、その例としては、ニューラル・プロセッシング・ユニット(NPU)がある。
2023年、IntelはCPU、GPU、NPUシステムオンチップを備えたMeteor LakeというコードネームのIntel Core Ultraプロセッサをリリースした。
しかし、IntelのOpenVINOフレームワークによるNPUの公式ソフトウェアサポートは、静的モデル推論に限定されている。
したがって、LLMにおける自己回帰トークン生成の動的な性質は、最初からサポートされていない。
この欠点に対処するために,OpenVINO上に構築されたPythonベースのフレームワークであるNITRO(NPU Inference for Transformers Optimization)を紹介した。
本稿では,トランスアーキテクチャの重要な変更点を詳細に論じ,推論,パフォーマンスベンチマーク,パッケージの改善に向けた今後のステップについて述べる。
NITROのコードリポジトリは以下の通りである。
関連論文リスト
- Hardware-Assisted Virtualization of Neural Processing Units for Cloud Platforms [3.93151902626205]
我々は、総合的なNPU仮想化フレームワークであるNeu10を紹介する。
Neu10は、(1)物理NPU(pNPU)における不均一な計算ユニットの詳細な仮想化を可能にするvNPUと呼ばれるフレキシブルなNPU抽象化、(2)リソース利用とコスト効率を改善するためにペイ・アズ・ユー・ゴーコンピューティングモデルと柔軟なvNPU-to-pNPUマッピングを可能にするvNPUリソースアロケータ、(3)複数のvNPUのためのきめ細かいテンソル演算のスケジューリングを容易にする最新のNPUアーキテクチャのISA拡張からなる。
論文 参考訳(メタデータ) (2024-08-07T21:45:01Z) - NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals [58.83169560132308]
NNsightとNDIFは、非常に大きなニューラルネットワークの科学的研究を可能にするために、タンデムで機能する技術である。
NNsightは、遅延リモート実行を導入するためにPyTorchを拡張したオープンソースのシステムである。
NDIFは、NNsightリクエストを実行するスケーラブルな推論サービスで、GPUリソースと事前トレーニングされたモデルを共有することができる。
論文 参考訳(メタデータ) (2024-07-18T17:59:01Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Aquila: QuEra's 256-qubit neutral-atom quantum computer [85.21205677945196]
Aquila"はQuEraの最新デバイスで、Amazon Web Services(AWS)上のBraketクラウドサービスを通じて利用可能である。
Aquilaは、ユーザ構成可能なアーキテクチャ上でアナログハミルトンシミュレータとして動作する「フィールドプログラマブルキュービットアレイ」である。
このホワイトペーパーは、Aquilaとその機能の概要として役立ちます。
論文 参考訳(メタデータ) (2023-06-20T17:56:29Z) - End-to-end AI framework for interpretable prediction of molecular and
crystal properties [3.8878792624088856]
このフレームワークは、CGCNN、PhysNet、SchNet、MPNN、MPNN-transformer、TorchMD-NETといった最先端AIモデルに基づいている。
これらのAIモデルとベンチマークQM9、hMOF、MD17データセットを併用して、モデルがユーザ指定の材料特性を予測する方法を示す。
論文 参考訳(メタデータ) (2022-12-21T19:27:51Z) - TPU-MLIR: A Compiler For TPU Using MLIR [2.6519283973116963]
TPU-MLIRは、TPU(Processing Unit)と呼ばれるカスタムASICに、トレーニング済みニューラルネットワーク(NN)モデルをデプロイする
NNモデルはTOP方言に変換され、チップの構成に応じて異なるTPUのためにTPU方言に低下する。
MLIRパスパイプラインを使用してTPU上で最適化を行い、マシンコードを生成する方法を示す。
論文 参考訳(メタデータ) (2022-10-23T10:45:54Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - Small-Bench NLP: Benchmark for small single GPU trained models in
Natural Language Processing [0.0]
Small-Bench NLPは、単一のGPUでトレーニングされた小さな効率のよいニューラルネットワークモデルのベンチマークである。
我々のELECTRA-DeBERTa小モデルアーキテクチャは、BERT-Baseの82.20(110Mパラメータ)に匹敵する平均スコア81.53を達成する。
論文 参考訳(メタデータ) (2021-09-22T17:18:55Z) - Extending Python for Quantum-Classical Computing via Quantum
Just-in-Time Compilation [78.8942067357231]
Pythonは、その柔軟性、ユーザビリティ、可読性、開発者の生産性を重視することで有名な人気のあるプログラミング言語です。
量子ジャスト・イン・タイム・コンパイルのための堅牢なC++インフラストラクチャを通じて、異種量子古典計算を可能にするPythonの言語拡張を提案する。
論文 参考訳(メタデータ) (2021-05-10T21:11:21Z) - PeleNet: A Reservoir Computing Framework for Loihi [0.0]
PeleNetは、ニューロモルフィックハードウェアLoihiの貯水池コンピューティングを単純化することを目指している。
複数のコアやチップ上でのネットワークの自動的かつ効率的な分散を提供する。
論文 参考訳(メタデータ) (2020-11-24T19:33:08Z) - Hybrid Models for Learning to Branch [81.93868699246214]
我々はCPUマシン上で効率的な分岐を行うための新しいハイブリッドアーキテクチャを提案する。
提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。
論文 参考訳(メタデータ) (2020-06-26T21:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。