論文の概要: Towards Deterministic End-to-end Latency for Medical AI Systems in
NVIDIA Holoscan
- arxiv url: http://arxiv.org/abs/2402.04466v1
- Date: Tue, 6 Feb 2024 23:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 17:31:24.779593
- Title: Towards Deterministic End-to-end Latency for Medical AI Systems in
NVIDIA Holoscan
- Title(参考訳): NVIDIA Holoscanにおける医療AIシステムのための決定論的エンドツーエンドレイテンシ
- Authors: Soham Sinha, Shekhar Dwivedi, Mahdi Azizian
- Abstract要約: 医療機器メーカーは、単一のプラットフォームに複数のアプリケーションを統合することで、AIとMLがもたらすメリットを最大化することを熱望している。
複数のAIアプリケーションの同時実行は、それぞれ独自の視覚化コンポーネントを持ち、予測不可能なエンドツーエンドのレイテンシをもたらす。
本稿では,センサデータと画像のストリーミングを行うリアルタイムAIシステムであるHoloscanプラットフォームにおけるこれらの課題に対処する。
- 参考スコア(独自算出の注目度): 0.35516599670943777
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The introduction of AI and ML technologies into medical devices has
revolutionized healthcare diagnostics and treatments. Medical device
manufacturers are keen to maximize the advantages afforded by AI and ML by
consolidating multiple applications onto a single platform. However, concurrent
execution of several AI applications, each with its own visualization
components, leads to unpredictable end-to-end latency, primarily due to GPU
resource contentions. To mitigate this, manufacturers typically deploy separate
workstations for distinct AI applications, thereby increasing financial,
energy, and maintenance costs. This paper addresses these challenges within the
context of NVIDIA's Holoscan platform, a real-time AI system for streaming
sensor data and images. We propose a system design optimized for heterogeneous
GPU workloads, encompassing both compute and graphics tasks. Our design
leverages CUDA MPS for spatial partitioning of compute workloads and isolates
compute and graphics processing onto separate GPUs. We demonstrate significant
performance improvements across various end-to-end latency determinism metrics
through empirical evaluation with real-world Holoscan medical device
applications. For instance, the proposed design reduces maximum latency by
21-30% and improves latency distribution flatness by 17-25% for up to five
concurrent endoscopy tool tracking AI applications, compared to a single-GPU
baseline. Against a default multi-GPU setup, our optimizations decrease maximum
latency by 35% for up to six concurrent applications by improving GPU
utilization by 42%. This paper provides clear design insights for AI
applications in the edge-computing domain including medical systems, where
performance predictability of concurrent and heterogeneous GPU workloads is a
critical requirement.
- Abstract(参考訳): 医療機器へのAIとML技術の導入は、医療診断と治療に革命をもたらした。
医療機器メーカーは、単一のプラットフォームに複数のアプリケーションを統合することで、AIとMLがもたらすメリットを最大化することを熱望している。
しかし、独自の視覚化コンポーネントを備えた複数のAIアプリケーションの同時実行は、主にGPUリソースの競合による予測不可能なエンドツーエンドレイテンシにつながる。
これを軽減するため、製造業者は通常、異なるAIアプリケーションのための別々のワークステーションをデプロイし、財務、エネルギー、メンテナンスコストを増大させる。
本稿では、センサーデータと画像をストリーミングするリアルタイムAIシステムであるNVIDIAのHoloscanプラットフォームにおけるこれらの課題に対処する。
計算タスクとグラフィックスタスクの両方を含む異種GPUワークロードに最適化されたシステム設計を提案する。
我々の設計では、CUDA MPSを計算ワークロードの空間分割に利用し、計算処理とグラフィックス処理を別々のGPUに分離する。
実世界の医療機器アプリケーションを用いた経験的評価により,様々な終末遅延決定指標の大幅な性能向上を示す。
例えば、提案した設計では、単一GPUベースラインと比較して、最大レイテンシを21~30%削減し、最大5つの同時内視鏡ツールトラッキングAIアプリケーションに対して、レイテンシ分散フラットネスを17~25%改善している。
デフォルトのマルチGPUセットアップに対して,GPU利用率を42%向上させることで,最大で6つの並列アプリケーションで最大遅延を35%削減する。
本稿では、並列および異種gpuワークロードのパフォーマンス予測が重要な要件である医療システムを含むエッジコンピューティング領域におけるaiアプリケーションについて、明確な設計知見を提供する。
関連論文リスト
- Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。
このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文 参考訳(メタデータ) (2024-07-29T00:14:10Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Benchmarking Edge Computing Devices for Grape Bunches and Trunks
Detection using Accelerated Object Detection Single Shot MultiBox Deep
Learning Models [2.1922186455344796]
この研究は、オブジェクト検出のための異なるプラットフォームのパフォーマンスをリアルタイムでベンチマークする。
著者らは、自然なVineデータセットを使用して、RetinaNet ResNet-50を微調整した。
論文 参考訳(メタデータ) (2022-11-21T17:02:33Z) - Towards making the most of NLP-based device mapping optimization for
OpenCL kernels [5.6596607119831575]
我々は、加速されたOpenCLカーネルのための最適なデバイス選択(CPUまたはGPU)の問題に取り組むCummins et al.、すなわちDeeptuneの開発を拡張した。
ソースコードの文脈情報を拡張した4つの異なるモデルを提案する。
実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4%向上させることがわかった。
論文 参考訳(メタデータ) (2022-08-30T10:20:55Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Multi-Component Optimization and Efficient Deployment of Neural-Networks
on Resource-Constrained IoT Hardware [4.6095200019189475]
本稿では,エンドツーエンドのマルチコンポーネントモデル最適化シーケンスを提案し,その実装をオープンソース化する。
最適化コンポーネントは, (i) 12.06 x の圧縮, (ii) 0.13% から 0.27% の精度, (iii) 単位推定の桁数が 0.06 ms のモデルを生成することができる。
論文 参考訳(メタデータ) (2022-04-20T13:30:04Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。