論文の概要: The Energy Blind Spot: NVIDIA's Flagship Edge AI Hardware Cannot Support Process-Level Energy Attribution
- arxiv url: http://arxiv.org/abs/2605.27599v1
- Date: Tue, 26 May 2026 19:15:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.476442
- Title: The Energy Blind Spot: NVIDIA's Flagship Edge AI Hardware Cannot Support Process-Level Energy Attribution
- Title(参考訳): NVIDIAのフラッグシップエッジAIハードウェアは、プロセスレベルエネルギー属性をサポートしない
- Authors: Deepak Panigrahy, Aakash Tyagi,
- Abstract要約: エージェントAIワークロードは、エッジデプロイメントをターゲットにしている。
オーケストレーション構造は エージェントエネルギーコストを支配しています
CPU側処理は全レイテンシの90.6%を占める。
- 参考スコア(独自算出の注目度): 0.6338178373376447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic AI workloads - where a single user goal triggers multi-step orchestration, tool calls, retries, and failure recovery - are being targeted for edge deployment, with NVIDIA, Dell, HP, ASUS, MSI, Acer, and Gigabyte all shipping GB10-based desktop AI systems in 2026. We recently demonstrated that orchestration structure dominates agentic energy cost, with workflows consuming 4.33x more energy per successful goal than linear baselines and OOI reaching 7.63x for multi-step reasoning tasks. Separately, Rajat et al. show that CPU-side processing accounts for up to 90.6% of total latency and 44% of total dynamic energy in agentic workloads. We report a systematic energy-observability audit of the ASUS Ascent GX10 (GB10 SoC) and find that the platform exposes no CPU energy counter, no INA power-rail monitor, no IPMI/BMC, and no SCMI powercap protocol through any supported software interface. The only on-device energy telemetry is instantaneous GPU power via NVML. We further discover that the MediaTek firmware already computes per-rail energy internally via an undocumented ACPI interface (SPBM), but NVIDIA states there are "no plans to expose CPU rail information." On-device per-process energy attribution - as performed on x86 via RAPL - is therefore not reproducible on this platform through supported interfaces. We formalize a hardware requirements specification for energy-attributed AI, propose an interim calibration bridge using external DC metering combined with GPU subtraction, and identify a standards-track path via SCMI powercap. Our findings motivate the low-carbon computing community to demand energy observability as a first-class hardware requirement.
- Abstract(参考訳): エージェントAIワークロード — 単一のユーザ目標が複数ステップのオーケストレーション、ツールコール、リトライ、障害回復をトリガーする — は、エッジデプロイメントをターゲットとしており、NVIDIA、Dell、HP、ASUS、MSI、Acer、Gigabyteはすべて、2026年にGB10ベースのデスクトップAIシステムを出荷している。
我々は最近、オーケストレーション構造がエージェントエネルギーコストを支配しており、ワークフローは線形ベースラインよりも4.33倍のエネルギーを消費し、OOIはマルチステップ推論タスクで7.63倍に達することを実証した。
これとは別に、RajatらはCPU側処理がエージェントワークロードの90.6%のレイテンシと44%のダイナミックエネルギを担っていることを示した。
我々はASUS Ascent GX10(GB10 SoC)の系統的なエネルギー・可観測性監査を報告し、このプラットフォームがCPUエネルギカウンタ、INAパワーレールモニター、IPMI/BMC、SCMIパワーキャッププロトコルをサポート対象のソフトウェアインターフェースを通じて公開しないことを発見した。
オンデバイスでの唯一のエネルギーテレメトリは、NVMLによる即時GPUパワーである。
さらに我々は、MediaTekファームウェアが、未文書のACPIインターフェース(SPBM)を介して、既に内部でレール毎のエネルギーを計算していることを発見したが、NVIDIAは「CPUレール情報を公開する計画はない」と述べている。
したがって、RAPLを介してx86上で実行されるオンデバイスプロセス毎のエネルギ属性は、サポート対象のインターフェイスを通じてこのプラットフォーム上で再現できない。
我々は、エネルギー分散AIのハードウェア要件仕様を定式化し、外部DC計測とGPUサブトラクションを組み合わせた中間キャリブレーションブリッジを提案し、SCMIパワーキャップによる標準トラックパスを特定する。
我々の発見は、低炭素コンピューティングコミュニティが第一級ハードウェア要件としてエネルギーの可観測性を要求する動機となっている。
関連論文リスト
- Profiling-Driven Adaptive Distributed Transformer Inference on Embedded Edge Deployment [60.442064966340524]
本稿では、WiFi経由で接続されたNVIDIA Jetson Orin Nanoデバイスに関するプロトタイプ研究を行う。
主な発見は、主なボトルネックは、ネットワーク帯域幅だけでなく、通信中のCPU-GPUステージングである。
実験によると、この戦略はフルテンソル交換と比較して遅延を65%-77%減らし、エネルギー消費を34%-52%減らしている。
論文 参考訳(メタデータ) (2026-05-25T10:39:28Z) - PALS: Power-Aware LLM Serving for Mixture-of-Experts Models [7.28734124763028]
大規模言語モデル(LLM)推論は、現代のデータセンターで支配的なワークロードとなっている。
我々は、GPUパワーキャップを一級制御ノブとして扱うLPMサービスPALSのためのパワーアウェアランタイムを提案する。
PALSはエネルギー効率を最大26.3%改善し、電力制約下ではランタイム違反を4倍から7倍に減らし、動的電力予算を追跡する。
論文 参考訳(メタデータ) (2026-05-20T17:19:20Z) - Characterizing Vision-Language-Action Models across XPUs: Constraints and Acceleration for On-Robot Deployment [8.758783768535805]
VLA(Vision-Language-Action)モデルは、一般的なロボット制御に期待できるが、ロボット上での展開は、コストとエネルギー予算の厳しいリアルタイム推論によってボトルネックとなる。
本稿では,モデル・ハードウエアのコキャラクタリゼーションによる低コストVLAデプロイメントの系統的解析を行う。
論文 参考訳(メタデータ) (2026-04-27T13:12:16Z) - Beyond the GPU: The Strategic Role of FPGAs in the Next Wave of AI [0.0]
Field-Programmable Gate Arrays (FPGA)は、AIアルゴリズムを直接デバイスロジックにマッピングできる再構成可能なプラットフォームである。
CPUやGPUアーキテクチャとは異なり、FPGAはその物理構造を特定のモデルに適応させるために、フィールドで再構成することができる。
AIフレームワークからの部分的な再構成とコンパイルフローは、プロトタイプからデプロイメントまでのパスを短縮している。
論文 参考訳(メタデータ) (2025-11-04T03:41:42Z) - Tempus Core: Area-Power Efficient Temporal-Unary Convolution Core for Low-Precision Edge DLAs [1.9938412996898076]
単項行列乗算ハードウェアは、データの分散性と低精度な値を活用し、ハードウェア効率を向上させることを目的としている。
このような一元的ハードウェアを商用ディープラーニングアクセラレータ(DLA)に統合することは、処理要素(PE)配列データフローの違いによって制限されている。
この研究は、Tempus Coreという、高度にスケーラブルな単項ベースのPEアレイを備えた畳み込みコアを、浴槽(時空単項)乗算器で提示する。
論文 参考訳(メタデータ) (2024-12-25T23:20:02Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Vega: A 10-Core SoC for IoT End-Nodes with DNN Acceleration and
Cognitive Wake-Up From MRAM-Based State-Retentive Sleep Mode [14.214500730272256]
Vegaは1.7ドルのMathrmmuWから32.2 GOPS (@ 49.4 mW)ピークまで、NSAA上でスケールアップ可能なIoTエンドノードシステムである。
ベガは8ビットINTで615 GOPS/W、32ビットと16ビットFPで79と129 GFLOPS/WのSoAリード効率を達成する。
論文 参考訳(メタデータ) (2021-10-18T08:47:45Z) - AdderNet and its Minimalist Hardware Design for Energy-Efficient
Artificial Intelligence [111.09105910265154]
アドラー畳み込みニューラルネットワーク(AdderNet)を用いた新しいミニマリストハードウェアアーキテクチャを提案する。
AdderNet全体の16%の高速化を実現している。
我々は、AdderNetが他の競争相手を追い越せると結論付けている。
論文 参考訳(メタデータ) (2021-01-25T11:31:52Z) - The Architectural Implications of Distributed Reinforcement Learning on
CPU-GPU Systems [45.479582612113205]
CPU-GPUシステムにおけるRLトレーニングの性能と電力効率を改善する方法について述べる。
我々は,最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化を行う。
また、新しいシステム設計メトリック、CPU/GPU比を導入し、CPUリソースとGPUリソースの最適なバランスを見つける方法を紹介します。
論文 参考訳(メタデータ) (2020-12-08T04:50:05Z) - Optimizing Deep Learning Recommender Systems' Training On CPU Cluster
Architectures [56.69373580921888]
クラウドコンピューティングセンターのAIサイクルの大部分を占めるRecommender Systemsに注目します。
HPC用に調整された最新のCPUハードウェアとソフトウェア上で動作可能にすることで、パフォーマンスの2桁以上の改善を達成できます。
論文 参考訳(メタデータ) (2020-05-10T14:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。