論文の概要: OpenURMA: A Clean-Room Open Implementation of the Unified Bus Protocol
- arxiv url: http://arxiv.org/abs/2605.28717v1
- Date: Wed, 27 May 2026 16:38:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.221357
- Title: OpenURMA: A Clean-Room Open Implementation of the Unified Bus Protocol
- Title(参考訳): OpenURMA: 統一バスプロトコルのクリーンルームオープン実装
- Authors: Bojie Li,
- Abstract要約: OpenURMAはHuaweiのUnified Bus(UB)の最初のクリーンルームオープン実装である
UBはアプリケーション毎のエンドポイント状態をホストごとのトランスポート状態から切り離す。
ローカルCPUのロード/ストアからオンチップバスコントローラへリモートメモリに到達する。
- 参考スコア(独自算出の注目度): 0.3951796994513004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern datacenter RDMA is bottlenecked at the network interface, not the wire. A NIC running RoCE or InfiniBand holds per-connection state for every (application, remote-endpoint) pair - hundreds of megabytes at 1024-application fanout - and pays a four-traversal PCIe round trip on a 64-byte operation, inflating latency an order of magnitude beyond the wire. Both follow from the Queue Pair over PCIe abstraction RDMA inherits from InfiniBand. Huawei's Unified Bus (UB), a public 2025 specification, changes the abstraction: it decouples per-application endpoint state from per-host transport state so connection context grows additively, exposes ordering as opt-in, and reaches remote memory through native CPU load/store to an on-chip-bus controller. UB ships in Huawei's closed Ascend 950 silicon. OpenURMA is the first clean-room open implementation of UB's transport and transaction layers, realised at three tiers - synthesisable RTL on Alveo U50, a cycle-level two-node SystemC simulator, and a gem5 full-system scaffold - each with a matched OpenRoCE (RoCEv2 RC) baseline. The contribution is the implementation, harness, and controlled comparison closed silicon does not admit. On the canonical 64-byte remote fetch - LOAD on UB-spec Sec.8.3, READ on RoCEv2 RC - UB's load/store path delivers ~500 ns end-to-end, 4.37x below the matched baseline (2186 ns), sustains 2.80x higher throughput, and fits in ~14% of a U50's LUTs.
- Abstract(参考訳): 現代のデータセンターRDMAは、ワイヤではなくネットワークインターフェースでボトルネックになっている。
NIC実行中のRoCEまたはInfiniBandは、すべての(アプリケーション、リモートエンドポイント)ペア(1024アプリケーションファンアウト時に数百メガバイト)の接続状態を保持し、64バイトの操作で4回のPCIeラウンドトリップを支払う。
どちらも PCIe の抽象化である Queue Pair から続き、RDMA は InfiniBand から継承される。
2025年のパブリック仕様であるHuaweiのUnified Bus(UB)は、抽象化を変更している: アプリケーション毎のエンドポイント状態をホスト毎のトランスポート状態から切り離し、接続コンテキストが追加的に成長し、オプトインとして順序付けされ、ネイティブCPUロード/ストアを介してオンチップバスコントローラにリモートメモリに到達する。
UBはHuaweiのクローズドAscend 950シリコンに搭載されています。
OpenURMAはUBのトランスポート層とトランザクション層の最初のクリーンルームのオープン実装であり、Alveo U50上の合成可能なRTL、サイクルレベルの2ノードのSystemCシミュレータ、gem5のフルシステムスキャフォールドの3層で実現された。
コントリビューションは、実装、ハーネス、制御された比較されたクローズドシリコンは認めない。
標準64バイトのリモートフェッチ - LOAD on UB-spec Sec.8.3, READ on RoCEv2 RC - UBのロード/ストアパスは500 nsで、マッチしたベースライン(2186 ns)より4.37倍低く、スループットは2.80倍、U50のLUTの14%に収まる。
関連論文リスト
- Profiling-Driven Adaptive Distributed Transformer Inference on Embedded Edge Deployment [60.442064966340524]
本稿では、WiFi経由で接続されたNVIDIA Jetson Orin Nanoデバイスに関するプロトタイプ研究を行う。
主な発見は、主なボトルネックは、ネットワーク帯域幅だけでなく、通信中のCPU-GPUステージングである。
実験によると、この戦略はフルテンソル交換と比較して遅延を65%-77%減らし、エネルギー消費を34%-52%減らしている。
論文 参考訳(メタデータ) (2026-05-25T10:39:28Z) - On-Device Vision Training, Deployment, and Inference on a Thumb-Sized Microcontroller [0.0]
本稿では,エンド・ツー・エンドのビジョン・デバイス・機械学習・パイプラインを提案する。
Seeed Studio ESP32-S3 XI Kit MLAO (8MB PSRAM)で動作し、ファームウェアはトレーニング1時間あたり約9分で3種類の64x64画像分類を実現し、リアルタイム推論は6.3 FPSである。
論文 参考訳(メタデータ) (2026-04-24T20:59:16Z) - Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels [83.99688944263843]
DoRA(Weight-De Low-Rank Adaptation)は、LoRAを方向から分離することで拡張する。
d_in = 8192 とランク r = 384 では、単一のモジュールのノルムは bf16 で512MB の過渡的なワーキングメモリを必要とする。
因子ノルムは、二乗ノルムを O(d_out r + r2) 中間体を通して計算可能な基底、交差、およびグラマー項に分解し、密積を除去する。
論文 参考訳(メタデータ) (2026-03-23T17:57:24Z) - Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-12T16:00:22Z) - Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference [0.0]
Mamba-2のステートスペース双対性アルゴリズムは、XLAの融合とタイリングが実際に最適化したものにきれいにマッピングする。
我々は,XLA の標準プリミティブとして,完全な推論パス (プリフィル,キャッシュされた自己回帰復号化) を実装した。
この実装は、単一のJAXソースからCPU、NVIDIA GPU、Google Cloud TPUで無修正で実行される。
論文 参考訳(メタデータ) (2026-03-10T12:03:00Z) - The DMA Streaming Framework: Kernel-Level Buffer Orchestration for High-Performance AI Data Paths [0.0]
本稿では、この欠落したレイヤをバッファオーケストレーションとして明示するLinuxカーネルモジュールであるdmaplaneについて述べる。
dmaplaneは/dev/dmaplaneを介して安定したカーネルUAPIを公開し、リングベースのコマンドチャネル、DMAバッファライフサイクル管理、デバイス間の共有のためのdma-bufエクスポートを構成する。
我々は,DRAMスケールでのNUMAクロスノードペナルティの測定,RDMA負荷時の完全安全フロー制御,GPU BARマッピング層とcudaMemcpyの併用によるオーケストレーション感度の評価を行った。
論文 参考訳(メタデータ) (2026-02-26T23:44:02Z) - RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文 参考訳(メタデータ) (2025-12-27T11:14:23Z) - LLM-Driven Kernel Evolution: Automating Driver Updates in Linux [19.111608041629008]
Linuxカーネルの進化は、API/ABIの変更、セマンティックシフト、セキュリティ強化アップデートを通じてドライバを壊す。
本稿では,カーネル$rightarrow$driver共進化事例の実行可能なコーパスであるDRIVEBENCHと,ドライバのメンテナンスを自動化する閉ループLLM駆動システムであるAUTODRIVERを紹介する。
論文 参考訳(メタデータ) (2025-11-24T09:31:52Z) - GPU-Initiated Networking for NCCL [0.7990599798388804]
従来のGPU通信は、CPUがすべての通信操作をオーケストレーションするホスト開始モデルに従っている。
本稿では,GINアーキテクチャ,設計,セマンティクスについて述べる。
論文 参考訳(メタデータ) (2025-11-19T03:36:03Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - Near-chip Dynamic Vision Filtering for Low-Bandwidth Pedestrian
Detection [99.94079901071163]
本稿では、ダイナミックビジョンセンサ(DVS)を用いた歩行者検出のための新しいエンドツーエンドシステムを提案する。
我々は、複数のセンサがローカル処理ユニットにデータを送信し、検出アルゴリズムを実行するアプリケーションをターゲットにしている。
我々の検出器は450ミリ秒毎に検出を行うことができ、総合的なテストF1スコアは83%である。
論文 参考訳(メタデータ) (2020-04-03T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。