論文の概要: Proxics: an efficient programming model for far memory accelerators
- arxiv url: http://arxiv.org/abs/2604.18120v1
- Date: Mon, 20 Apr 2026 11:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.836674
- Title: Proxics: an efficient programming model for far memory accelerators
- Title(参考訳): Proxics:ファームメモリアクセラレーターのための効率的なプログラミングモデル
- Authors: Zikai Liu, Niels Pressel, Jasmin Schult, Roman Meier, Pengcheng Xu, Timothy Roscoe,
- Abstract要約: ニアデータ処理(NDP: Near-Data Processing) コアをメモリの近くに配置することで、CPU間の帯域幅の要求を減らします。
使い慣れたOS抽象化に基づくNDPデバイスのためのプログラミングモデルを提案する。
本稿では,コンパイルプロトコルと相互接続プロトコルを利用して,これらの抽象化を軽量かつ効率的な方法で実装する方法を示す。
- 参考スコア(独自算出の注目度): 1.1863266199894045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of disaggregated or far memory systems such as CXL memory pools has renewed interest in Near-Data Processing (NDP): situating cores close to memory to reduce bandwidth requirements to and from the CPU. Hardware designs for such accelerators are appearing, but there lack clean, portable OS abstractions for programming them. We propose a programming model for NDP devices based on familiar OS abstractions: virtual processors (processes) and inter-process communication channels (like Unix pipes). While appealing from a user perspective, a naive implementation of such abstractions is inappropriate for NDP accelerators: the paucity of processing power in some hardware designs makes classical processes overly heavyweight, and IPC based on shared buffers makes no sense in a system designed to reduce memory bandwidth. Accordingly, we show how to implement these abstractions in a lightweight and efficient manner by exploiting compilation and interconnect protocols. We demonstrate them with a real hardware platform runing applications with a range of memory access patterns, including bulk memory operations, in-memory databases and graph applications. Crucially, we show not only the benefits over CPU-only implementations, but also the critical importance of efficient, low-latency communication channels between CPU and NDP accelerators, a feature largely neglected in existing proposals.
- Abstract(参考訳): CXLメモリプールのような分散メモリシステムや遠方のメモリシステムの使用は、NDP(Near-Data Processing)に新たな関心を寄せている。
このようなアクセラレーターのハードウェアデザインは登場しているが、それらをプログラミングするためのクリーンでポータブルなOS抽象化は欠如している。
仮想プロセッサ(プロセス)とプロセス間通信チャネル(Unixパイプなど)を抽象化したNDPデバイスのためのプログラミングモデルを提案する。
いくつかのハードウェア設計において、処理能力の貧弱さによって古典的なプロセスは過度に重くなり、共有バッファに基づくIPCは、メモリ帯域幅を減らすように設計されたシステムでは意味をなさない。
そこで本研究では,コンパイルプロトコルと相互接続プロトコルを利用して,これらの抽象化を軽量かつ効率的な方法で実装する方法を示す。
私たちは、バルクメモリ操作、インメモリデータベース、グラフアプリケーションなど、さまざまなメモリアクセスパターンでアプリケーションを実行する実際のハードウェアプラットフォームでそれらをデモします。
重要なことは、CPUのみの実装に対するメリットだけでなく、CPUとNDPアクセラレータ間の効率的な低レイテンシ通信チャネルの重要性も示しています。
関連論文リスト
- HyperOffload: Graph-Driven Hierarchical Memory Management for Large Language Models on SuperNode Architectures [20.525243835887558]
SuperNodeは、コンパイラ内のキャッシュ演算子を使用したデータ移動を表す。
私たちは、本番のディープラーニングフレームワークMindSporeにSuperNodeを実装しています。
SuperNodeは、エンドツーエンドのパフォーマンスを維持しながら、推論のピークデバイスメモリ使用量を最大26%削減することを示す。
論文 参考訳(メタデータ) (2026-01-31T14:29:13Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - PIPO: Pipelined Offloading for Efficient Inference on Consumer Devices [13.786008100564185]
我々は、消費者デバイス上で効率的な推論を行うための、パイプラインオフロード(PIPO)と呼ばれる新しいフレームワークを提案する。
PIPOは、推論のための高効率なスケジューリングを実現するために、最適化されたデータ転送と計算を補完するきめ細かいオフロードパイプラインを設計する。
論文 参考訳(メタデータ) (2025-03-15T08:48:38Z) - Stochastic Communication Avoidance for Recommendation Systems [27.616664288148232]
本稿では,ルックアップテーブルを用いた任意の分散システムの通信コストを解析する理論的枠組みを提案する。
本稿では,メモリ,計算,通信制約を考慮したスループットを最大化するアルゴリズムを提案する。
フレームワークとアルゴリズムをPyTorchで実装し、ベースラインを越えたGPUシステムのトレーニングスループットを最大6倍に向上します。
論文 参考訳(メタデータ) (2024-11-03T15:37:37Z) - SMOF: Streaming Modern CNNs on FPGAs with Smart Off-Chip Eviction [6.800641017055453]
本稿では,計算パイプラインに沿ったオフチップメモリに重み付けとアクティベーション消去機構を導入する。
提案機構は既存のツールフローに組み込まれ,オフチップメモリをバッファとして利用することで設計空間を拡大する。
SMOFは、競争力があり、場合によっては、コンピュータビジョンタスクの範囲で最先端のパフォーマンスを提供する能力を示した。
論文 参考訳(メタデータ) (2024-03-27T18:12:24Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。