Fugu-MT 論文翻訳(概要): NITRO: LLM Inference on Intel Laptop NPUs

論文の概要: NITRO: LLM Inference on Intel Laptop NPUs

arxiv url: http://arxiv.org/abs/2412.11053v1
Date: Sun, 15 Dec 2024 05:15:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.974451
Title: NITRO: LLM Inference on Intel Laptop NPUs
Title（参考訳）: NITRO:Intel Laptop NPU上でのLLM推論
Authors: Anthony Fei, Mohamed S. Abdelfattah,
Abstract要約: 2023年、IntelはCPU、GPU、NPUシステムオンチップを備えたMeteor LakeというコードネームのIntel Core Ultraプロセッサをリリースした。 IntelのOpenVINOフレームワークによるNPUのサポートは、静的モデル推論に限定されている。 NITROはOpenVINO上に構築されたPythonベースのフレームワークで,NPU上でのテキストおよびチャット生成をサポートする。
参考スコア（独自算出の注目度）: 4.257269905476281
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have become essential tools in natural language processing, finding large usage in chatbots such as ChatGPT and Gemini, and are a central area of research. A particular area of interest includes designing hardware specialized for these AI applications, with one such example being the neural processing unit (NPU). In 2023, Intel released the Intel Core Ultra processor with codename Meteor Lake, featuring a CPU, GPU, and NPU system-on-chip. However, official software support for the NPU through Intel's OpenVINO framework is limited to static model inference. The dynamic nature of autoregressive token generation in LLMs is therefore not supported out of the box. To address this shortcoming, we present NITRO (NPU Inference for Transformers Optimization), a Python-based framework built on top of OpenVINO to support text and chat generation on NPUs. In this paper, we discuss in detail the key modifications made to the transformer architecture to enable inference, some performance benchmarks, and future steps towards improving the package. The code repository for NITRO can be found here: https://github.com/abdelfattah-lab/nitro.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ChatGPTやGeminiといったチャットボットにおいて、自然言語処理において欠かせないツールとなり、研究の中心となっている。特定の分野には、これらのAIアプリケーションに特化したハードウェアの設計が含まれており、その例としては、ニューラル・プロセッシング・ユニット(NPU)がある。 2023年、IntelはCPU、GPU、NPUシステムオンチップを備えたMeteor LakeというコードネームのIntel Core Ultraプロセッサをリリースした。しかし、IntelのOpenVINOフレームワークによるNPUの公式ソフトウェアサポートは、静的モデル推論に限定されている。したがって、LLMにおける自己回帰トークン生成の動的な性質は、最初からサポートされていない。この欠点に対処するために,OpenVINO上に構築されたPythonベースのフレームワークであるNITRO(NPU Inference for Transformers Optimization)を紹介した。本稿では,トランスアーキテクチャの重要な変更点を詳細に論じ,推論,パフォーマンスベンチマーク,パッケージの改善に向けた今後のステップについて述べる。 NITROのコードリポジトリは以下の通りである。

関連論文リスト

Omniwise: Predicting GPU Kernels Performance with LLMs [0.06666419797034795]
Omniwiseは、GPUカーネルのパフォーマンス予測に大規模言語モデル(LLM)を適用する、エンド・ツー・エンドの自己教師型微調整パイプラインである。メモリ帯域幅、キャッシュヒット率、GFLOP、演算強度などの重要なパフォーマンス指標を、コード実行やプロファイリングツールを必要とせずに、カーネルコードから直接予測することができる。提案手法は,AMD MI250およびMI300Xアーキテクチャ上で実行されるGPUカーネル上での相対誤差の10%以内の予測を90%以上達成する。
論文参考訳（メタデータ） (2025-06-25T23:36:44Z)
NNTile: a machine learning framework capable of training extremely large GPT language models on a single node [83.9328245724548]
NNTileはタスクベースの並列処理を実装したStarPUライブラリをベースとしている。これは、大きなニューラルネットワークをトレーニングするために必要な特定の操作が、CPUコアまたはGPUデバイスのいずれかで実行されることを意味する。
論文参考訳（メタデータ） (2025-04-17T16:22:32Z)
SparAMX: Accelerating Compressed LLMs Token Generation on AMX-powered CPUs [5.760049762453579]
大規模な言語モデルをCPUで加速することにより、より広いAIアクセスを低コストで、消費電力で実現する。オープンソースでカスタマイズされたスパースカーネルのセットを提供し、任意のPyTorchモデルを高速化します。我々は、現在のシステム上での1.14倍のスピードアップを達成するために、非構造化空間の使用を初めて実演する。
論文参考訳（メタデータ） (2025-02-18T02:26:34Z)
Hardware-Assisted Virtualization of Neural Processing Units for Cloud Platforms [3.93151902626205]
我々は、総合的なNPU仮想化フレームワークであるNeu10を紹介する。 Neu10は、(1)物理NPU(pNPU)における不均一な計算ユニットの詳細な仮想化を可能にするvNPUと呼ばれるフレキシブルなNPU抽象化、(2)リソース利用とコスト効率を改善するためにペイ・アズ・ユー・ゴーコンピューティングモデルと柔軟なvNPU-to-pNPUマッピングを可能にするvNPUリソースアロケータ、(3)複数のvNPUのためのきめ細かいテンソル演算のスケジューリングを容易にする最新のNPUアーキテクチャのISA拡張からなる。
論文参考訳（メタデータ） (2024-08-07T21:45:01Z)
NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals [58.83169560132308]
NNsightとNDIFは、非常に大きなニューラルネットワークの科学的研究を可能にするために、タンデムで機能する技術である。 NNsightは、遅延リモート実行を導入するためにPyTorchを拡張したオープンソースのシステムである。 NDIFは、NNsightリクエストを実行するスケーラブルな推論サービスで、GPUリソースと事前トレーニングされたモデルを共有することができる。
論文参考訳（メタデータ） (2024-07-18T17:59:01Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
End-to-end AI framework for interpretable prediction of molecular and crystal properties [3.8878792624088856]
このフレームワークは、CGCNN、PhysNet、SchNet、MPNN、MPNN-transformer、TorchMD-NETといった最先端AIモデルに基づいている。これらのAIモデルとベンチマークQM9、hMOF、MD17データセットを併用して、モデルがユーザ指定の材料特性を予測する方法を示す。
論文参考訳（メタデータ） (2022-12-21T19:27:51Z)
TPU-MLIR: A Compiler For TPU Using MLIR [2.6519283973116963]
TPU-MLIRは、TPU(Processing Unit)と呼ばれるカスタムASICに、トレーニング済みニューラルネットワーク(NN)モデルをデプロイする NNモデルはTOP方言に変換され、チップの構成に応じて異なるTPUのためにTPU方言に低下する。 MLIRパスパイプラインを使用してTPU上で最適化を行い、マシンコードを生成する方法を示す。
論文参考訳（メタデータ） (2022-10-23T10:45:54Z)
Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文参考訳（メタデータ） (2022-09-27T15:04:01Z)
Small-Bench NLP: Benchmark for small single GPU trained models in Natural Language Processing [0.0]
Small-Bench NLPは、単一のGPUでトレーニングされた小さな効率のよいニューラルネットワークモデルのベンチマークである。我々のELECTRA-DeBERTa小モデルアーキテクチャは、BERT-Baseの82.20(110Mパラメータ)に匹敵する平均スコア81.53を達成する。
論文参考訳（メタデータ） (2021-09-22T17:18:55Z)
Extending Python for Quantum-Classical Computing via Quantum Just-in-Time Compilation [78.8942067357231]
Pythonは、その柔軟性、ユーザビリティ、可読性、開発者の生産性を重視することで有名な人気のあるプログラミング言語です。量子ジャスト・イン・タイム・コンパイルのための堅牢なC++インフラストラクチャを通じて、異種量子古典計算を可能にするPythonの言語拡張を提案する。
論文参考訳（メタデータ） (2021-05-10T21:11:21Z)
PeleNet: A Reservoir Computing Framework for Loihi [0.0]
PeleNetは、ニューロモルフィックハードウェアLoihiの貯水池コンピューティングを単純化することを目指している。複数のコアやチップ上でのネットワークの自動的かつ効率的な分散を提供する。
論文参考訳（メタデータ） (2020-11-24T19:33:08Z)
Hybrid Models for Learning to Branch [81.93868699246214]
我々はCPUマシン上で効率的な分岐を行うための新しいハイブリッドアーキテクチャを提案する。提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。
論文参考訳（メタデータ） (2020-06-26T21:03:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。