論文の概要: A Scalable Distributed Framework for Multimodal GigaVoxel Image Registration
- arxiv url: http://arxiv.org/abs/2509.25044v1
- Date: Mon, 29 Sep 2025 16:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.144156
- Title: A Scalable Distributed Framework for Multimodal GigaVoxel Image Registration
- Title(参考訳): マルチモーダルギガボクセル画像登録のためのスケーラブル分散フレームワーク
- Authors: Rohit Jena, Vedant Zope, Pratik Chaudhari, James C. Gee,
- Abstract要約: FFDPは、かつてない規模の画像登録のための分散フレームワークを補足した、IO対応非GEMM融合カーネルのセットである。
我々は,100ミクロンのヒト脳MRI容積をネイティブ解像度でマルチモーダル登録することにより,前例のない機能を示す。
FFDPは既存の最先端最適化とディープラーニング登録パイプラインを最大6~7倍高速化し、ピークメモリ消費量を20~59%削減する。
- 参考スコア(独自算出の注目度): 18.63653207759386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose FFDP, a set of IO-aware non-GEMM fused kernels supplemented with a distributed framework for image registration at unprecedented scales. Image registration is an inverse problem fundamental to biomedical and life sciences, but algorithms have not scaled in tandem with image acquisition capabilities. Our framework complements existing model parallelism techniques proposed for large-scale transformer training by optimizing non-GEMM bottlenecks and enabling convolution-aware tensor sharding. We demonstrate unprecedented capabilities by performing multimodal registration of a 100 micron ex-vivo human brain MRI volume at native resolution - an inverse problem more than 570x larger than a standard clinical datum in about a minute using only 8 A6000 GPUs. FFDP accelerates existing state-of-the-art optimization and deep learning registration pipelines by upto 6 - 7x while reducing peak memory consumption by 20 - 59%. Comparative analysis on a 250 micron dataset shows that FFDP can fit upto 64x larger problems than existing SOTA on a single GPU, and highlights both the performance and efficiency gains of FFDP compared to SOTA image registration methods.
- Abstract(参考訳): 本研究では,従来の規模の画像登録のための分散フレームワークを組み込んだ,IOを意識した非GEMM融合カーネルであるFFDPを提案する。
画像登録は、バイオメディカルおよび生命科学の基礎となる逆問題であるが、アルゴリズムは画像取得能力と同等にスケールしていない。
非GEMMボトルネックを最適化し、畳み込み対応テンソルシャーディングを可能にすることで、大規模トランスフォーマートレーニングのための既存のモデル並列化手法を補完する。
A6000 GPUを8個使用すれば,標準臨床像より570倍以上大きい逆問題である,100ミクロンのヒト脳MRI容積をネイティブ解像度でマルチモーダル登録することで,前例のない機能を示す。
FFDPは既存の最先端最適化とディープラーニング登録パイプラインを最大6~7倍高速化し、ピークメモリ消費量を20~59%削減する。
250ミクロンデータセットの比較分析により、FFDPは1つのGPU上で既存のSOTAよりも最大64倍大きな問題に適合し、SOTA画像登録法と比較してFFDPの性能と効率性の両方の向上を強調している。
関連論文リスト
- FractMorph: A Fractional Fourier-Based Multi-Domain Transformer for Deformable Image Registration [0.6683923149620578]
クロスイメージ特徴マッチングを向上する新しい3次元デュアル並列変換器アーキテクチャであるFractMorphを提案する。
軽量なU-Netスタイルのネットワークは、変換器に富んだ特徴から密度変形場を予測する。
その結果、FractMorphは、全体のDice similarity Coefficient(DSC)が86.45%$、平均1構造が75.15%$、95セントのHausdorff(HD95)が1.54mathrmmm$で、最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-08-17T17:42:10Z) - Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding [49.218195440600354]
現在の画像ピラミッドは、複数の解像度を処理するために同じ大規模なモデルを使用しており、計算コストを大幅に上回っている。
我々はCOCO変換画像ピラミッドネットワーク(PIIP)と呼ばれる新しいネットワークアーキテクチャを提案する。
PIIPは、事前訓練されたモデル(ViTまたはCNN)を、より小さなネットワークブランチによって高解像度の画像が処理され、計算コストと性能のバランスをとるマルチスケールイメージの処理に使用する。
論文 参考訳(メタデータ) (2025-01-14T01:57:41Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget [53.311109531586844]
大規模T2I拡散変圧器モデルの低コスト化を実証する。
我々は16億のパラメータスパーストランスをわずか1890ドルの経済的コストで訓練し、ゼロショット世代で12.7 FIDを達成する。
我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
論文 参考訳(メタデータ) (2024-07-22T17:23:28Z) - DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis [56.849285913695184]
Diffusion Mamba (DiM) は高分解能画像合成のためのシーケンスモデルである。
DiMアーキテクチャは高解像度画像の推論時間効率を実現する。
実験は、我々のDiMの有効性と効率を実証する。
論文 参考訳(メタデータ) (2024-05-23T06:53:18Z) - Q-Segment: Segmenting Images In-Sensor for Vessel-Based Medical
Diagnosis [13.018482089796159]
我々は、量子化されたリアルタイムセグメンテーションアルゴリズム「Q-Segment」を提案し、Sony IMX500を用いて、低消費電力エッジビジョンプラットフォーム上で包括的な評価を行う。
Q-セグメントは、センサー内での超低推論時間(0.23ms)と72mWの消費電力を実現している。
この研究は、エッジベースのイメージセグメンテーションに関する貴重な洞察をもたらし、低消費電力環境に適した効率的なアルゴリズムの基礎を築いた。
論文 参考訳(メタデータ) (2023-12-15T15:01:41Z) - Tiny-VBF: Resource-Efficient Vision Transformer based Lightweight
Beamformer for Ultrasound Single-Angle Plane Wave Imaging [4.15681035147785]
本研究では、新しいビジョントランスを用いた小型ビームフォーマ(Tiny-VBF)を提案する。
Tiny-VBFの出力は、非常に低いフレームレートを必要とする高速エンベロープ検出を提供する。
我々は、Zynq UltraScale+ MPSoC ZCU104 FPGA上で、加速器アーキテクチャを提案し、Tiny-VBFモデルを実装した。
論文 参考訳(メタデータ) (2023-11-20T10:47:52Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - {\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。
本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。
muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文 参考訳(メタデータ) (2022-11-23T11:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。