論文の概要: Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference
- arxiv url: http://arxiv.org/abs/2603.06728v1
- Date: Fri, 06 Mar 2026 03:03:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.997435
- Title: Orion: Characterizing and Programming Apple's Neural Engine for LLM Training and Inference
- Title(参考訳): Orion: AppleのLLMトレーニングと推論のためのニューラルエンジンの特性とプログラミング
- Authors: Ramchand Kumaresan,
- Abstract要約: ニューラル処理ユニット(NPU)を搭載した20億以上のAppleデバイス - Apple Neural Engine(ANE)
AppleのパブリックMLフレームワークであるCoreMLは、直接的なANEプログラミングを防止し、デバイス上でのトレーニングをサポートしない不透明な抽象化を課している。
我々はOrionについて,直接ANE実行,コンパイラパイプライン,単一ネイティブランタイムでのチェックポイント再開による安定したマルチステップトレーニングを組み合わせた,最初のエンドツーエンドシステムについて紹介する。
- 参考スコア(独自算出の注目度): 3.151184728006369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over two billion Apple devices ship with a Neural Processing Unit (NPU) - the Apple Neural Engine (ANE) - yet this accelerator remains largely unused for large language model workloads. CoreML, Apple's public ML framework, imposes opaque abstractions that prevent direct ANE programming and do not support on-device training. We present Orion, to our knowledge the first open end-to-end system that combines direct ANE execution, a compiler pipeline, and stable multi-step training with checkpoint resume in a single native runtime, bypassing CoreML entirely via Apple's private _ANEClient and _ANECompiler APIs. Building on prior characterization work by maderix, we extend public knowledge of ANE constraints to a catalog of 20 restrictions on MIL IR programs, memory layout, compilation limits, and numerical behavior, including 14 previously undocumented constraints discovered during Orion development. Orion includes a compiler that lowers a graph IR through five optimization passes to ANE-native MIL and a runtime that manages IOSurface-backed zero-copy tensor I/O, program caching, and delta compilation for weight updates. Because the ANE bakes weights at compile time, naive training normally requires full recompilation per step (~4.2 s). We show that compiled programs can instead be updated by unloading, patching weight files, and reloading, bypassing ANECCompile() and reducing recompilation from 4,200 ms to 494 ms per step (8.5x), yielding a 3.8x training speedup. On an M4 Max, Orion achieves 170+ tokens/s for GPT-2 124M inference and demonstrates stable training of a 110M-parameter transformer on TinyStories for 1,000 steps in 22 minutes with zero NaN occurrences. We also present LoRA adapter-as-input, enabling hot-swap of adapters via IOSurface inputs without recompilation.
- Abstract(参考訳): 20億以上のAppleデバイスに、Apple Neural Engine(ANE)と呼ばれるNeural Processing Unit(NPU)が同梱されている。
AppleのパブリックMLフレームワークであるCoreMLは、直接的なANEプログラミングを防止し、デバイス上でのトレーニングをサポートしない不透明な抽象化を課している。
私たちはOrionを、Appleのプライベートな_ANEClientと_ANECompiler APIを通じてCoreMLを完全にバイパスし、直接ANE実行、コンパイラパイプライン、単一のネイティブランタイムでチェックポイントを再開する安定したマルチステップトレーニングを組み合わせた最初のエンドツーエンドシステムとして紹介します。
maderixによる事前評価作業に基づいて、ANE制約の公開知識を、MIL IRプログラム、メモリレイアウト、コンパイル制限、数値動作に関する20の制約のカタログに拡張する。
Orionには、ANEネイティブのMILに渡す5つの最適化を通じてグラフIRを下げるコンパイラと、IOSurfaceが支援するゼロコピーテンソルI/O、プログラムキャッシング、重み更新のためのデルタコンパイルを管理するランタイムが含まれている。
ANEはコンパイル時に重みを焼くため、ナイーブトレーニングは通常ステップ毎の完全な再コンパイル (~4.2 s) を必要とする。
コンパイルプログラムをアンロード、パッチ、再ロードで更新し、ANECCompile()をバイパスし、再コンパイルをステップあたり4,200msから494ms (8.5x) に減らし、トレーニング速度を3.8倍に向上させる。
M4 Maxで、OrionはGPT-2 124Mの170以上のトークン/sを達成し、TinyStories上の110Mパラメータの安定なトレーニングを、NaNゼロの22分で1,000ステップ行う。
また、LoRAアダプタ・アズ・インプットにより、再コンパイルせずにIOSurface入力を介してアダプタのホットスワップを可能にする。
関連論文リスト
- Democratizing AI: Open-source Scalable LLM Training on GPU-based Supercomputers [65.35142508909892]
AxoNNと呼ばれる,スケーラブルでポータブルなオープンソースフレームワークで実装された新しい4次元ハイブリッド並列アルゴリズムを提案する。
本稿では,Frontier 上で AxoNN を用いて405ビリオンパラメータ LLM の微調整を行う。
論文 参考訳(メタデータ) (2025-02-12T06:05:52Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Tracking Meets LoRA: Faster Training, Larger Model, Stronger Performance [87.19164603145056]
実験室レベルの資源をトラッキングするための大規模ViTモデルのパワーを明らかにする手法であるLoRATを提案する。
私たちの作業の本質は、推論レイテンシを追加することなく、モデルパラメータの小さなサブセットを微調整するテクニックであるLoRAを適用することです。
我々はPETRの適応のみに基づくアンカーフリーヘッドを設計し、計算オーバーヘッドを少なくして性能を向上する。
論文 参考訳(メタデータ) (2024-03-08T11:41:48Z) - TinyCL: An Efficient Hardware Architecture for Continual Learning on Autonomous Systems [5.990186851067931]
資源制約された自律システム上で連続学習を行うためのハードウェアアーキテクチャであるTinyCLを提案する。
TinyCLは、前方と後方の両方の伝搬を実行する処理ユニットと、メモリベースのCLワークロードを管理する制御ユニットで構成される。
我々の知る限り、提案したTinyCLは、自律システム上でCLを実行する最初のハードウェアアクセラレータである。
論文 参考訳(メタデータ) (2024-02-15T08:09:17Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - Deploying Machine Learning Models to Ahead-of-Time Runtime on Edge Using
MicroTVM [2.144835105990896]
我々は,学習済みモデルをバックエンド用のCソースライブラリに解析するエンドツーエンドのコードジェネレータを開発した。
特定の計算集約演算子は、専用アクセラレータに容易にオフロードできる。
ARM Cortex M4Fコア上で手動ジェスチャー認識実験を行う。
論文 参考訳(メタデータ) (2023-04-10T19:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。