論文の概要: The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths
- arxiv url: http://arxiv.org/abs/2603.10030v1
- Date: Thu, 26 Feb 2026 23:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.58545
- Title: The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths
- Title(参考訳): DMAストリーミングフレームワーク:高性能AIデータパスのためのカーネルレベルバッファオーケストレーション
- Authors: Marco Graziano,
- Abstract要約: 本稿では、この欠落したレイヤをバッファオーケストレーションとして明示するLinuxカーネルモジュールであるdmaplaneについて述べる。
dmaplaneは/dev/dmaplaneを介して安定したカーネルUAPIを公開し、リングベースのコマンドチャネル、DMAバッファライフサイクル管理、デバイス間の共有のためのdma-bufエクスポートを構成する。
我々は,DRAMスケールでのNUMAクロスノードペナルティの測定,RDMA負荷時の完全安全フロー制御,GPU BARマッピング層とcudaMemcpyの併用によるオーケストレーション感度の評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI transport libraries move bytes efficiently, but they commonly assume that buffers are already correctly allocated, placed, shared, registered, and safe under completion and teardown pressure. This paper presents dmaplane, a Linux kernel module that makes this missing layer explicit as buffer orchestration. dmaplane exposes a stable kernel UAPI via /dev/dmaplane and composes ring-based command channels, DMA buffer lifecycle management, dma-buf export for cross-device sharing, a kernel-space RDMA engine, NUMA-aware allocation and verification, credit-based flow control, low-overhead observability, and GPU memory integration via PCIe BAR pinning. We evaluate orchestration sensitivity with measurements of NUMA cross-node penalties at DRAM scale, completion-safe flow control under sustained RDMA load, and GPU BAR mapping tiers versus cudaMemcpy. We also demonstrate end-to-end disaggregated inference by transferring KV-cache chunks between two machines using RDMA WRITE WITH IMMEDIATE and reconstructing tensor views on the receiver. RDMA measurements use Soft-RoCE; we distinguish measured results from provider-independent properties by construction.
- Abstract(参考訳): AIトランスポートライブラリは、バイトを効率的に移動するが、バッファはすでに、完了と分解のプレッシャーの下で、正しく割り当てられ、配置され、共有され、登録され、安全であると仮定される。
本稿では、この欠落したレイヤをバッファオーケストレーションとして明示するLinuxカーネルモジュールであるdmaplaneについて述べる。
dmaplaneは/dev/dmaplaneを介して安定したカーネルUAPIを公開し、リングベースのコマンドチャネル、DMAバッファライフサイクル管理、クロスデバイス共有のためのdma-bufエクスポート、カーネル空間RDMAエンジン、NUMA対応のアロケーションと検証、クレジットベースのフロー制御、低オーバヘッドオブザーバビリティ、PCIe BARピンニングによるGPUメモリ統合を構成する。
我々は,DRAMスケールでのNUMAクロスノードペナルティの測定,RDMA負荷時の完全安全フロー制御,GPU BARマッピング層とcudaMemcpyとの比較により,オーケストレーション感度を評価した。
また, IMMEDIATEを用いたRDMA WRITEを用いて, KV-cacheチャンクを2台のマシン間で転送し, 受信機上のテンソルビューを再構成することによって, 終端から終端までの分解推論を実証する。
RDMA測定はSoft-RoCEを用いており, 構成によるプロバイダ非依存特性と測定結果を区別する。
関連論文リスト
- AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - Analyzing Latency Hiding and Parallelism in an MLIR-based AI Kernel Compiler [0.0]
エッジデバイスのAIカーネルコンパイルは、並列性を悪用し、メモリレイテンシを隠蔽するコンパイラの能力に依存する。
本稿では,MLIRベースのコンパイルパイプラインにおける3つのコンパイラ制御機構のベンチマーク手法とそれに対応する結果について報告する。
論文 参考訳(メタデータ) (2026-02-22T19:14:23Z) - DyMA-Fuzz: Dynamic Direct Memory Access Abstraction for Re-hosted Monolithic Firmware Fuzzing [10.760871707398218]
我々はDyMA-Fuzzを導入し、ストリームベースのファズインジェクションの最近の進歩を、再ホスト環境におけるDMA駆動インタフェースに拡張する。
ベンダ固有のディスクリプタ、異種DMA設計、さまざまなディスクリプタロケーション、ランタイム分析技術など、重要な課題に取り組む。
DyMA-Fuzzは、最先端のツールが見逃した脆弱性と実行パスを明らかにし、最大122%のコードカバレッジを達成する。
論文 参考訳(メタデータ) (2026-02-09T14:52:57Z) - Bare-Metal Tensor Virtualization: Overcoming the Memory Wall in Edge-AI Inference on ARM64 [0.5729426778193398]
ARM64マイクロアーキテクチャ(Apple Silicon)向けに最適化されたソフトウェアで実装された"仮想コア"アーキテクチャ
DMA(Software-Defined Direct Memory Access)は、100%キャッシュラインの利用をウェイトで保証しますが、ゼロコピーローダは遅延を排除します。
110M秒モデルによる実験結果から,M2ハードウェア上では, >60トークン/秒の安定したスループットが示された。
論文 参考訳(メタデータ) (2026-01-06T15:00:40Z) - ODMA: On-Demand Memory Allocation Framework for LLM Serving on LPDDR-Class Accelerators [14.238528502723787]
ランダムアクセス帯域の低いアクセラレータ上での大規模言語モデル(LLM)は、現在のメモリマネージャによって制限される。
本稿では,RACMのためのオンデマンドメモリ割り当てフレームワークODMAを提案する。
ODMAは、軽量長予測器と動的バケットパーティショニングと大型バケットセーフガードを結合することで、分散ドリフトとヘビーテールリクエストに対処する。
論文 参考訳(メタデータ) (2025-12-10T08:52:20Z) - AutoSAGE: Input-Aware CUDA Scheduling for Sparse GNN Aggregation (SpMM/SDDMM) and CSR Attention [52.20940151628735]
AutoSAGEは入力ごとにタイリングとマッピングを選択するインプット対応スケジューラである。
Reddit OGBN-Productsでは、カーネルレベルの最大4.7倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-11-17T18:25:51Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - BiMaCoSR: Binary One-Step Diffusion Model Leveraging Flexible Matrix Compression for Real Super-Resolution [63.777210548110425]
本稿では,バイナライゼーションと1段階蒸留を組み合わせたBiMaCoSRを提案する。
BiMaCoSRはFPに比べて23.8倍圧縮率と27.4倍スピードアップ比を達成した。
論文 参考訳(メタデータ) (2025-02-01T06:34:55Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。