論文の概要: HyperOffload: Graph-Driven Hierarchical Memory Management for Large Language Models on SuperNode Architectures
- arxiv url: http://arxiv.org/abs/2602.00748v2
- Date: Tue, 03 Feb 2026 04:19:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:28:03.708094
- Title: HyperOffload: Graph-Driven Hierarchical Memory Management for Large Language Models on SuperNode Architectures
- Title(参考訳): HyperOffload: SuperNodeアーキテクチャ上の大規模言語モデルのためのグラフ駆動階層型メモリ管理
- Authors: Fangxin Liu, Qinghua Zhang, Hanjing Shen, Zhibo Liang, Li Jiang, Haibing Guan, Chong Bao, Xuefeng Jin,
- Abstract要約: SuperNodeは、コンパイラ内のキャッシュ演算子を使用したデータ移動を表す。
私たちは、本番のディープラーニングフレームワークMindSporeにSuperNodeを実装しています。
SuperNodeは、エンドツーエンドのパフォーマンスを維持しながら、推論のピークデバイスメモリ使用量を最大26%削減することを示す。
- 参考スコア(独自算出の注目度): 20.525243835887558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid evolution of Large Language Models (LLMs) towards long-context reasoning and sparse architectures has pushed memory requirements far beyond the capacity of individual device HBM. While emerging supernode architectures offer terabyte-scale shared memory pools via high-bandwidth interconnects, existing software stacks fail to exploit this hardware effectively. Current runtime-based offloading and swapping techniques operate with a local view, leading to reactive scheduling and exposed communication latency that stall the computation pipeline. In this paper, we propose the SuperNode Memory Management Framework (\textbf{HyperOffload}). It employs a compiler-assisted approach that leverages graph-driven memory management to treat remote memory access as explicit operations in the computation graph, specifically designed for hierarchical SuperNode architectures. Unlike reactive runtime systems, SuperNode represents data movement using cache operators within the compiler's Intermediate Representation (IR). This design enables a global, compile-time analysis of tensor lifetimes and execution dependencies. Leveraging this visibility, we develop a global execution-order refinement algorithm that statically schedules data transfers to hide remote memory latency behind compute-intensive regions. We implement SuperNode within the production deep learning framework MindSpore, adding a remote memory backend and specialized compiler passes. Evaluation on representative LLM workloads shows that SuperNode reduces peak device memory usage by up to 26\% for inference while maintaining end-to-end performance. Our work demonstrates that integrating memory-augmented hardware into the compiler's optimization framework is essential for scaling next-generation AI workloads.
- Abstract(参考訳): 長期コンテキスト推論やスパースアーキテクチャへのLLM(Large Language Models)の急速な進化により、メモリ要求は個々のデバイスHBMの容量をはるかに超えた。
新興のスーパーノードアーキテクチャは、テラバイト規模の共有メモリプールを高帯域接続で提供するが、既存のソフトウェアスタックは、このハードウェアを効果的に活用することができない。
現在のランタイムベースのオフロードとスワップ技術は、ローカルビューで動作するため、リアクティブなスケジューリングと、計算パイプラインを停止する通信遅延が露呈する。
本稿では,SuperNode Memory Management Framework (\textbf{HyperOffload})を提案する。
これは、グラフ駆動のメモリ管理を活用して、計算グラフ内の明示的な操作としてリモートメモリアクセスを扱う、コンパイラ支援のアプローチを採用している。
リアクティブランタイムシステムとは異なり、SuperNodeはコンパイラのIntermediate Representation(IR)内のキャッシュ演算子を使用したデータ移動を表す。
この設計により、テンソル寿命と実行依存性のグローバルでコンパイル時の解析が可能になる。
この可視化を活用することで,データ転送を静的にスケジュールし,計算集約領域の後方でリモートメモリの遅延を隠蔽するグローバルな実行順序改善アルゴリズムを開発した。
運用用のディープラーニングフレームワークであるMindSporeにSuperNodeを実装し、リモートメモリバックエンドと特殊なコンパイラパスを追加しています。
典型的なLCMワークロードの評価によると、SuperNodeは、エンドツーエンドのパフォーマンスを維持しながら、推論のピークデバイスメモリ使用量を最大26倍まで削減する。
私たちの研究は、メモリ拡張ハードウェアをコンパイラの最適化フレームワークに統合することが、次世代AIワークロードのスケールアップに不可欠であることを実証しています。
関連論文リスト
- Aeon: High-Performance Neuro-Symbolic Memory Management for Long-Horizon LLM Agents [0.0]
大規模言語モデル(LLM)は、自己注意の2次計算コストと「中道の失われた」現象によって制約される。
我々は,静的ストアではなく,管理OSリソースとしてメモリを再定義するニューロシンボリック認知オペレーティングシステムであるAeonを提案する。
論文 参考訳(メタデータ) (2026-01-14T15:23:22Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - LightMem: Lightweight and Efficient Memory-Augmented Generation [72.21680105265824]
我々は、メモリシステムの性能と効率のバランスをとるLightMemという新しいメモリシステムを紹介した。
人間の記憶のアトキンソン・シフリンモデルにインスパイアされたLightMemは、メモリを3つの相補的なステージにまとめる。
GPTとQwenのバックボーンを用いたLongMemEvalの実験では、LightMemは高いベースライン(最大10.9%のゲイン)を上回り、トークンの使用量を最大117倍に削減している。
論文 参考訳(メタデータ) (2025-10-21T17:58:17Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - PowerFusion: A Tensor Compiler with Explicit Data Movement Description
and Instruction-level Graph IR [10.059491353103526]
本稿では,メモリ集約演算子のための高性能コードを生成するテンソルコンパイラであるIntelliGenを提案する。
IntelliGenは計算とデータ移動の最適化の両方を考慮する。
NVIDIA GPU、AMD GPU、Cambricon MLU上でIntelliGenを評価し、平均で1.97x、2.93x、16.91x(1.28x、1.23x、2.31x)までスピードアップした。
論文 参考訳(メタデータ) (2023-07-11T03:17:40Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Programmable FPGA-based Memory Controller [9.013666207570749]
本稿では,利用可能なハードウェアリソース上の異なるターゲットアプリケーションに対して,モジュール型でプログラム可能なメモリコントローラを提案する。
提案したメモリコントローラは、キャッシュラインアクセスとバルクメモリ転送を効率的にサポートする。
商用メモリコントローラIPと比較して,CNNおよびGCNワークロードのメモリアクセス時間は最大58%向上した。
論文 参考訳(メタデータ) (2021-08-21T23:53:12Z) - PIM-DRAM:Accelerating Machine Learning Workloads using Processing in
Memory based on DRAM Technology [2.6168147530506958]
MLワークロードにおける行列ベクトル演算を高速化する処理インメモリ(PIM)プリミティブを提案する。
提案したアーキテクチャ,マッピング,データフローは,GPUよりも最大で23倍,6.5倍のメリットが得られることを示す。
論文 参考訳(メタデータ) (2021-05-08T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。