論文の概要: Post-Training Quantization for 3D Medical Image Segmentation: A Practical Study on Real Inference Engines
- arxiv url: http://arxiv.org/abs/2501.17343v1
- Date: Tue, 28 Jan 2025 23:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:37.261894
- Title: Post-Training Quantization for 3D Medical Image Segmentation: A Practical Study on Real Inference Engines
- Title(参考訳): 3次元医用画像セグメンテーションのためのトレーニング後の量子化:リアル推論エンジンの実践的研究
- Authors: Chongyu Qu, Ritchie Zhao, Ye Yu, Bin Liu, Tianyuan Yao, Junchao Zhu, Bennett A. Landman, Yucheng Tang, Yuankai Huo,
- Abstract要約: 推論中に低い演算をシミュレートする「フェイク量子化」では、実際のモデルサイズを減らしたり、現実の速度を向上したりしない。
PTQ(Post-training Quantization)フレームワークは、最先端(SOTA)の医用セグメンテーションモデル上で、真の8ビット量子化を実現している。
- 参考スコア(独自算出の注目度): 13.398758600007188
- License:
- Abstract: Quantizing deep neural networks ,reducing the precision (bit-width) of their computations, can remarkably decrease memory usage and accelerate processing, making these models more suitable for large-scale medical imaging applications with limited computational resources. However, many existing methods studied "fake quantization", which simulates lower precision operations during inference, but does not actually reduce model size or improve real-world inference speed. Moreover, the potential of deploying real 3D low-bit quantization on modern GPUs is still unexplored. In this study, we introduce a real post-training quantization (PTQ) framework that successfully implements true 8-bit quantization on state-of-the-art (SOTA) 3D medical segmentation models, i.e., U-Net, SegResNet, SwinUNETR, nnU-Net, UNesT, TransUNet, ST-UNet,and VISTA3D. Our approach involves two main steps. First, we use TensorRT to perform fake quantization for both weights and activations with unlabeled calibration dataset. Second, we convert this fake quantization into real quantization via TensorRT engine on real GPUs, resulting in real-world reductions in model size and inference latency. Extensive experiments demonstrate that our framework effectively performs 8-bit quantization on GPUs without sacrificing model performance. This advancement enables the deployment of efficient deep learning models in medical imaging applications where computational resources are constrained. The code and models have been released, including U-Net, TransUNet pretrained on the BTCV dataset for abdominal (13-label) segmentation, UNesT pretrained on the Whole Brain Dataset for whole brain (133-label) segmentation, and nnU-Net, SegResNet, SwinUNETR and VISTA3D pretrained on TotalSegmentator V2 for full body (104-label) segmentation. https://github.com/hrlblab/PTQ.
- Abstract(参考訳): ディープニューラルネットワークの量子化と、その計算の精度(ビット幅)の低減により、メモリ使用量の減少と処理の高速化が図られ、これらのモデルは、限られた計算資源を持つ大規模医療画像アプリケーションにより適している。
しかし、既存の多くの手法は、推論中の低い精度の操作をシミュレートする「フェイク量子化」を研究したが、実際にはモデルのサイズを減らしたり、現実の推論速度を向上することはなかった。
さらに、現代のGPUに実際の3D低ビット量子化をデプロイする可能性は、まだ解明されていない。
本研究では,最先端(SOTA)3次元医用セグメンテーションモデル(U-Net, SegResNet, SwinUNETR, nnU-Net, UNesT, TransUNet, ST-UNet, VISTA3D)に対して,真の8ビット量子化を実現した実時間後量子化(PTQ)フレームワークを提案する。
私たちのアプローチには2つの主要なステップがあります。
まず、未ラベルキャリブレーションデータセットによる重みとアクティベーションの両面での偽量子化を行うためにTensorRTを使用する。
第二に、この偽量子化を実際のGPU上のTensorRTエンジンによる実量子化に変換することにより、実際のモデルサイズと推論遅延を低減します。
大規模な実験により,モデル性能を犠牲にすることなく,GPU上で8ビット量子化を効果的に行うことができた。
この進歩により、計算資源が制約された医療画像アプリケーションに効率的なディープラーニングモデルの展開が可能になる。
U-Net、腹部(13-label)セグメンテーションのためのBTCVデータセットで事前トレーニングされたTransUNet、全脳(133-label)セグメンテーションのためのWhole Brain Datasetで事前トレーニングされたUNesT、全体(104-label)セグメンテーションのためのTotalSegmentator V2で事前トレーニングされたnnU-Net、SegResNet、SwinUNETR、VISTA3Dを含むコードとモデルがリリースされた。
https://github.com/hrlblab/PTQ。
関連論文リスト
- Quantized neural network for complex hologram generation [0.0]
コンピュータ生成ホログラフィー(CGH)は、ヘッドマウントディスプレイやヘッドアップディスプレイなどの拡張現実ディスプレイのための有望な技術である。
ニューラルネットワークをCGHに統合する最近の取り組みは、計算速度の高速化に成功している。
ニューラルネットワーク量子化を導入して,複雑なホログラム生成のための軽量モデルを開発した。
論文 参考訳(メタデータ) (2024-08-25T13:14:59Z) - Spatiotemporal Modeling Encounters 3D Medical Image Analysis:
Slice-Shift UNet with Multi-View Fusion [0.0]
本稿では,2次元CNNにおける3次元特徴をエンコードする2次元モデルSlice SHift UNetを提案する。
より正確にマルチビュー機能は、ボリュームの3次元平面に沿って2次元の畳み込みを実行することで協調的に学習される。
提案手法の有効性は,多モード腹部多臓器軸 (AMOS) と Cranial Vault (BTCV) データセットを越えたマルチアトラスラベリング (Multi-Atlas Labeling Beyond the Cranial Vault) で検証した。
論文 参考訳(メタデータ) (2023-07-24T14:53:23Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Smaller3d: Smaller Models for 3D Semantic Segmentation Using Minkowski
Engine and Knowledge Distillation Methods [0.0]
本稿では, 知識蒸留技術, 特に3次元深層学習におけるスパーステンソルを応用して, 性能を維持しつつ, モデルサイズを小さくする手法を提案する。
我々は,異なるスパース畳み込みNNの最先端モデルの性能をシミュレートするために,標準的な手法や様々な損失の組み合わせを含む異なる損失関数を分析し,目的を定めている。
論文 参考訳(メタデータ) (2023-05-04T22:19:25Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Video Pretraining Advances 3D Deep Learning on Chest CT Tasks [63.879848037679224]
大規模自然画像分類データセットの事前学習は、データスカース2D医療タスクのモデル開発に役立っている。
これらの2Dモデルは、3Dコンピュータビジョンベンチマークで3Dモデルに勝っている。
3Dモデルのためのビデオ事前トレーニングにより、より小さなデータセットでより高性能な3D医療タスクを実現することができることを示す。
論文 参考訳(メタデータ) (2023-04-02T14:46:58Z) - Pushing the Limits of Asynchronous Graph-based Object Detection with
Event Cameras [62.70541164894224]
低計算を維持しながら、そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択をいくつか導入する。
我々の手法は、密度の高いグラフニューラルネットワークよりも3.7倍高速に動作し、前方通過はわずか8.4msである。
論文 参考訳(メタデータ) (2022-11-22T15:14:20Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - 3D U-Net for segmentation of COVID-19 associated pulmonary infiltrates
using transfer learning: State-of-the-art results on affordable hardware [0.0]
肺浸潤物はCOVID-19の重症度を評価するのに役立ちますが、手動セグメンテーションは労働力と時間集約的です。
神経ネットワークを用いて肺浸潤を分断すると、このタスクは自動化される。
限られたハードウェアと短時間で最先端のセグメンテーションモデルをトレーニングするためのトランスファーラーニングの使用方法に関するソリューションを開発し、テストしました。
論文 参考訳(メタデータ) (2021-01-25T09:37:32Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - Recalibrating 3D ConvNets with Project & Excite [6.11737116137921]
畳み込みニューラルネットワーク(F-CNN)は、コンピュータビジョンと医用画像におけるセグメンテーションタスクの最先端のパフォーマンスを達成する。
既存の2Dリカバリ手法を3Dに拡張し, 簡単に比較できる汎用的な圧縮-プロセス-リカバリレートパイプラインを提案する。
PEモジュールは3次元F-CNNに容易に統合でき、Dice Scoreでは0.3まで性能が向上し、他の再校正ブロックの3次元拡張よりも性能が向上することを示した。
論文 参考訳(メタデータ) (2020-02-25T16:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。