Fugu-MT 論文翻訳(概要): Towards Deterministic End-to-end Latency for Medical AI Systems in NVIDIA Holoscan

論文の概要: Towards Deterministic End-to-end Latency for Medical AI Systems in NVIDIA Holoscan

arxiv url: http://arxiv.org/abs/2402.04466v1
Date: Tue, 6 Feb 2024 23:20:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 17:31:24.779593
Title: Towards Deterministic End-to-end Latency for Medical AI Systems in NVIDIA Holoscan
Title（参考訳）: NVIDIA Holoscanにおける医療AIシステムのための決定論的エンドツーエンドレイテンシ
Authors: Soham Sinha, Shekhar Dwivedi, Mahdi Azizian
Abstract要約: 医療機器メーカーは、単一のプラットフォームに複数のアプリケーションを統合することで、AIとMLがもたらすメリットを最大化することを熱望している。複数のAIアプリケーションの同時実行は、それぞれ独自の視覚化コンポーネントを持ち、予測不可能なエンドツーエンドのレイテンシをもたらす。本稿では,センサデータと画像のストリーミングを行うリアルタイムAIシステムであるHoloscanプラットフォームにおけるこれらの課題に対処する。
参考スコア（独自算出の注目度）: 0.35516599670943777
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The introduction of AI and ML technologies into medical devices has revolutionized healthcare diagnostics and treatments. Medical device manufacturers are keen to maximize the advantages afforded by AI and ML by consolidating multiple applications onto a single platform. However, concurrent execution of several AI applications, each with its own visualization components, leads to unpredictable end-to-end latency, primarily due to GPU resource contentions. To mitigate this, manufacturers typically deploy separate workstations for distinct AI applications, thereby increasing financial, energy, and maintenance costs. This paper addresses these challenges within the context of NVIDIA's Holoscan platform, a real-time AI system for streaming sensor data and images. We propose a system design optimized for heterogeneous GPU workloads, encompassing both compute and graphics tasks. Our design leverages CUDA MPS for spatial partitioning of compute workloads and isolates compute and graphics processing onto separate GPUs. We demonstrate significant performance improvements across various end-to-end latency determinism metrics through empirical evaluation with real-world Holoscan medical device applications. For instance, the proposed design reduces maximum latency by 21-30% and improves latency distribution flatness by 17-25% for up to five concurrent endoscopy tool tracking AI applications, compared to a single-GPU baseline. Against a default multi-GPU setup, our optimizations decrease maximum latency by 35% for up to six concurrent applications by improving GPU utilization by 42%. This paper provides clear design insights for AI applications in the edge-computing domain including medical systems, where performance predictability of concurrent and heterogeneous GPU workloads is a critical requirement.
Abstract（参考訳）: 医療機器へのAIとML技術の導入は、医療診断と治療に革命をもたらした。医療機器メーカーは、単一のプラットフォームに複数のアプリケーションを統合することで、AIとMLがもたらすメリットを最大化することを熱望している。しかし、独自の視覚化コンポーネントを備えた複数のAIアプリケーションの同時実行は、主にGPUリソースの競合による予測不可能なエンドツーエンドレイテンシにつながる。これを軽減するため、製造業者は通常、異なるAIアプリケーションのための別々のワークステーションをデプロイし、財務、エネルギー、メンテナンスコストを増大させる。本稿では、センサーデータと画像をストリーミングするリアルタイムAIシステムであるNVIDIAのHoloscanプラットフォームにおけるこれらの課題に対処する。計算タスクとグラフィックスタスクの両方を含む異種GPUワークロードに最適化されたシステム設計を提案する。我々の設計では、CUDA MPSを計算ワークロードの空間分割に利用し、計算処理とグラフィックス処理を別々のGPUに分離する。実世界の医療機器アプリケーションを用いた経験的評価により,様々な終末遅延決定指標の大幅な性能向上を示す。例えば、提案した設計では、単一GPUベースラインと比較して、最大レイテンシを21～30%削減し、最大5つの同時内視鏡ツールトラッキングAIアプリケーションに対して、レイテンシ分散フラットネスを17～25%改善している。デフォルトのマルチGPUセットアップに対して,GPU利用率を42%向上させることで,最大で6つの並列アプリケーションで最大遅延を35%削減する。本稿では、並列および異種gpuワークロードのパフォーマンス予測が重要な要件である医療システムを含むエッジコンピューティング領域におけるaiアプリケーションについて、明確な設計知見を提供する。

関連論文リスト

Real-Time Semantic Segmentation of Aerial Images Using an Embedded U-Net: A Comparison of CPU, GPU, and FPGA Workflows [0.0]
本研究では,航空画像のリアルタイムセマンティックセグメンテーションに最適化された軽量なU-Netモデルを提案する。実世界のデータセット上でのU-Netの精度を維持しながら、モデルのパラメータと乗算(MAC)操作を16。
論文参考訳（メタデータ） (2025-03-07T08:33:28Z)
PREBA: A Hardware/Software Co-Design for Multi-Instance GPU based AI Inference Servers [3.0518650058744075]
PreBA(プレバ)は、MIG推論サーバをターゲットにしたハードウェア/ソフトウェアの共同設計である。 3.7倍のスループット、テールレイテンシの3.4倍の削減、エネルギー効率の3.5倍の改善、コスト効率の3.0倍の改善を提供する。
論文参考訳（メタデータ） (2024-11-28T13:02:41Z)
Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文参考訳（メタデータ） (2024-09-23T08:27:27Z)
Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文参考訳（メタデータ） (2024-07-29T00:14:10Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
Benchmarking Edge Computing Devices for Grape Bunches and Trunks Detection using Accelerated Object Detection Single Shot MultiBox Deep Learning Models [2.1922186455344796]
この研究は、オブジェクト検出のための異なるプラットフォームのパフォーマンスをリアルタイムでベンチマークする。著者らは、自然なVineデータセットを使用して、RetinaNet ResNet-50を微調整した。
論文参考訳（メタデータ） (2022-11-21T17:02:33Z)
Towards making the most of NLP-based device mapping optimization for OpenCL kernels [5.6596607119831575]
我々は、加速されたOpenCLカーネルのための最適なデバイス選択(CPUまたはGPU)の問題に取り組むCummins et al.、すなわちDeeptuneの開発を拡張した。ソースコードの文脈情報を拡張した4つの異なるモデルを提案する。実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4%向上させることがわかった。
論文参考訳（メタデータ） (2022-08-30T10:20:55Z)
EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。 EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2022-05-29T20:07:23Z)
MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文参考訳（メタデータ） (2022-05-25T11:08:20Z)
MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。 MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2022-04-27T14:00:48Z)
Multi-Component Optimization and Efficient Deployment of Neural-Networks on Resource-Constrained IoT Hardware [4.6095200019189475]
本稿では,エンドツーエンドのマルチコンポーネントモデル最適化シーケンスを提案し,その実装をオープンソース化する。最適化コンポーネントは, (i) 12.06 x の圧縮, (ii) 0.13% から 0.27% の精度, (iii) 単位推定の桁数が 0.06 ms のモデルを生成することができる。
論文参考訳（メタデータ） (2022-04-20T13:30:04Z)
FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文参考訳（メタデータ） (2022-01-18T13:59:22Z)
MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文参考訳（メタデータ） (2021-11-30T03:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。