論文の概要: Exploring shared memory architectures for end-to-end gigapixel deep
learning
- arxiv url: http://arxiv.org/abs/2304.12149v1
- Date: Mon, 24 Apr 2023 15:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 14:45:47.161464
- Title: Exploring shared memory architectures for end-to-end gigapixel deep
learning
- Title(参考訳): エンドツーエンドの深層学習のための共有メモリアーキテクチャの探索
- Authors: Lucas W. Remedios, Leon Y. Cai, Samuel W. Remedios, Karthik Ramadass,
Aravind Krishnan, Ruining Deng, Can Cui, Shunxing Bao, Lori A. Coburn,
Yuankai Huo, Bennett A. Landman
- Abstract要約: 100GB以上の統一メモリを用いて,バッチサイズ1のギガピクセル画像のディープラーニングモデルを訓練する。
予想通り、モデルは高いDiceスコア 0.989pm$ 0.005 で収束した。
この研究は、一般的なネットワークアーキテクチャによるWSIのエンド・ツー・エンド・エンド・ラーニングに向けた有望なステップである。
- 参考スコア(独自算出の注目度): 8.354020379685924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning has made great strides in medical imaging, enabled by hardware
advances in GPUs. One major constraint for the development of new models has
been the saturation of GPU memory resources during training. This is especially
true in computational pathology, where images regularly contain more than 1
billion pixels. These pathological images are traditionally divided into small
patches to enable deep learning due to hardware limitations. In this work, we
explore whether the shared GPU/CPU memory architecture on the M1 Ultra
systems-on-a-chip (SoCs) recently released by Apple, Inc. may provide a
solution. These affordable systems (less than \$5000) provide access to 128 GB
of unified memory (Mac Studio with M1 Ultra SoC). As a proof of concept for
gigapixel deep learning, we identified tissue from background on gigapixel
areas from whole slide images (WSIs). The model was a modified U-Net (4492
parameters) leveraging large kernels and high stride. The M1 Ultra SoC was able
to train the model directly on gigapixel images (16000$\times$64000 pixels,
1.024 billion pixels) with a batch size of 1 using over 100 GB of unified
memory for the process at an average speed of 1 minute and 21 seconds per batch
with Tensorflow 2/Keras. As expected, the model converged with a high Dice
score of 0.989 $\pm$ 0.005. Training up until this point took 111 hours and 24
minutes over 4940 steps. Other high RAM GPUs like the NVIDIA A100 (largest
commercially accessible at 80 GB, $\sim$\$15000) are not yet widely available
(in preview for select regions on Amazon Web Services at \$40.96/hour as a
group of 8). This study is a promising step towards WSI-wise end-to-end deep
learning with prevalent network architectures.
- Abstract(参考訳): ディープラーニングは、GPUのハードウェア進歩によって実現された、医療画像において大きな進歩を遂げた。
新しいモデルを開発する上での大きな制約のひとつは、トレーニング中のGPUメモリリソースの飽和である。
これは、画像が定期的に10億ピクセル以上を含む計算病理学において特に当てはまる。
これらの病理画像は、ハードウェアの制限によってディープラーニングを可能にするために、伝統的に小さなパッチに分割されている。
そこで本研究では,Apple が最近リリースした M1 Ultra System-on-a-chip (SoC) 上でのGPU/CPUメモリの共有アーキテクチャが,ソリューションを提供するかどうかを考察する。
これらの安価なシステム(5,000ドル未満)は、128gbの統一メモリ(mac studio with m1 ultra soc)にアクセスできる。
ギガピクセル深層学習の概念実証として,全スライド画像(wsis)からギガピクセル領域の背景から組織を同定した。
このモデルは、大きなカーネルと高いストライドを利用する改良されたU-Net (4492パラメータ) である。
m1 ultra socは、tensorflow 2/kerasで1バッチあたり1分21秒という平均速度で、100gb以上の統一メモリを使用したバッチサイズで、ギガピクセルイメージ(16000$\times$64000ピクセル、1.024億ピクセル)でモデルを直接トレーニングすることができた。
予想通り、モデルは高Diceスコア0.989$\pm$0.005で収束した。
この時点でのトレーニングには111時間24分を要し、4940歩を超えた。
NVIDIA A100(80GB、$\sim$\$15000)のような他のハイRAMGPUは、まだ広く利用できない(Amazon Web Services上の一部のリージョンのプレビューでは、8人のグループで40.96/hourである)。
この研究は、一般的なネットワークアーキテクチャを用いたWSIのエンドツーエンドディープラーニングに向けた有望なステップである。
関連論文リスト
- REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
本稿では,ビデオには画像よりもはるかに冗長な情報が含まれており,非常に少ない動きの潜伏者によってエンコード可能であることを論じる。
我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - Is One GPU Enough? Pushing Image Generation at Higher-Resolutions with Foundation Models [4.257210316104905]
我々はPixelsmithを紹介した。これはゼロショットのテキスト・ツー・イメージ生成フレームワークで、1つのGPUで高解像度の画像をサンプリングする。
我々は,事前学習した拡散モデルの出力を1000倍に拡大できることを初めて示し,ギガピクセル画像生成への道を開いた。
論文 参考訳(メタデータ) (2024-06-11T13:33:33Z) - Accurate Gigapixel Crowd Counting by Iterative Zooming and Refinement [90.76576712433595]
GigaZoomは画像の最も密度の高い領域を反復的にズームし、より詳細な粗い密度マップを洗練します。
ギガZoomは,ギガピクセルの群衆計数のための最先端技術を取得し,次のベストメソッドの精度を42%向上させることを示す。
論文 参考訳(メタデータ) (2023-05-16T08:25:27Z) - SeiT: Storage-Efficient Vision Training with Tokens Using 1% of Pixel
Storage [52.317406324182215]
大規模データセットに対する視覚分類器の記憶効率向上のための学習手法を提案する。
私たちのトークンストレージは、JPEG圧縮されたオリジナルの生ピクセルの1%しか必要としない。
ImageNet-1kによる実験結果から,本手法は,他のストレージ効率のトレーニング手法よりも大幅に優れており,大きなギャップがあることがわかった。
論文 参考訳(メタデータ) (2023-03-20T13:55:35Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - Learned Smartphone ISP on Mobile GPUs with Deep Learning, Mobile AI &
AIM 2022 Challenge: Report [59.831324427712815]
この課題は、効率的なエンドツーエンドのAIベースの画像処理パイプラインを開発することを目的としている。
モデルはSnapdragonの8 Gen 1 GPUで評価され、一般的なディープラーニング運用の大部分で優れた加速結果が得られた。
提案されたソリューションは、最近のすべてのモバイルGPUと互換性があり、フルHD写真を20-50ミリ秒未満で処理でき、高い忠実度を達成できる。
論文 参考訳(メタデータ) (2022-11-07T22:13:10Z) - Iterative Patch Selection for High-Resolution Image Recognition [10.847032625429717]
本稿では,メモリ使用量を入力サイズから分離する単純な手法であるIPSを提案する。
IPSは、最も健全なパッチだけを選択してこれを達成し、画像認識のためのグローバルな表現に集約する。
本手法は,最小のアクセラレータメモリを使用しながら,異なる領域,トレーニング体制,画像サイズにまたがって高い性能を示し,幅広い適用性を有する。
論文 参考訳(メタデータ) (2022-10-24T07:55:57Z) - Harmony: Overcoming the hurdles of GPU memory capacity to train massive
DNN models on commodity servers [13.620650014358413]
ディープニューラルネットワーク(DNN)は、過去10年間で、複雑さとサイズが指数関数的に増加した。
限られたリソースしかアクセスできない研究者にとって大きな課題の1つは、モデルサイズに比べてメモリ容量が限られていることである。
論文 参考訳(メタデータ) (2022-02-02T22:16:27Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep
Learning [9.322987670900778]
ZeRO-Infinityは、現在の世代のGPUクラスタでトレーニングするための数十から数百兆のパラメータを持つモデルに適合できます。
1つのNVIDIA DGX-2ノードで1兆のパラメータモデルを微調整できるため、大きなモデルの方がアクセスしやすい。
論文 参考訳(メタデータ) (2021-04-16T02:22:12Z) - Distributed Hierarchical GPU Parameter Server for Massive Scale Deep
Learning Ads Systems [18.8634762028544]
本稿では,大規模ディープラーニング広告システムのための分散GPU階層型パラメータサーバを提案する。
4ノードの階層型GPUパラメータサーバは、MPIクラスタ内の150ノードのインメモリ分散パラメータサーバよりも2倍以上高速にモデルをトレーニングすることができる。
提案方式の価格-性能比は,MPIクラスタソリューションの4-9倍である。
論文 参考訳(メタデータ) (2020-03-12T05:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。