論文の概要: HNOSeg-XS: Extremely Small Hartley Neural Operator for Efficient and Resolution-Robust 3D Image Segmentation
- arxiv url: http://arxiv.org/abs/2507.08205v1
- Date: Thu, 10 Jul 2025 22:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.193437
- Title: HNOSeg-XS: Extremely Small Hartley Neural Operator for Efficient and Resolution-Robust 3D Image Segmentation
- Title(参考訳): HNOSeg-XS:高効率・高分解能3次元画像分割のための超小型ハートレーニューラル演算子
- Authors: Ken C. L. Wong, Hongzhi Wang, Tanveer Syeda-Mahmood,
- Abstract要約: 医用画像分割のための高分解能HNOSeg-XSアーキテクチャを提案する。
解像度が堅牢で、高速で、メモリ効率が良く、パラメータ効率も極めて高い。
BraTS'23、KiTS'23、MVSeg'23のデータセットでTesla V100 GPUでテストされた。
- 参考スコア(独自算出の注目度): 3.990336239705776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In medical image segmentation, convolutional neural networks (CNNs) and transformers are dominant. For CNNs, given the local receptive fields of convolutional layers, long-range spatial correlations are captured through consecutive convolutions and pooling. However, as the computational cost and memory footprint can be prohibitively large, 3D models can only afford fewer layers than 2D models with reduced receptive fields and abstract levels. For transformers, although long-range correlations can be captured by multi-head attention, its quadratic complexity with respect to input size is computationally demanding. Therefore, either model may require input size reduction to allow more filters and layers for better segmentation. Nevertheless, given their discrete nature, models trained with patch-wise training or image downsampling may produce suboptimal results when applied on higher resolutions. To address this issue, here we propose the resolution-robust HNOSeg-XS architecture. We model image segmentation by learnable partial differential equations through the Fourier neural operator which has the zero-shot super-resolution property. By replacing the Fourier transform by the Hartley transform and reformulating the problem in the frequency domain, we created the HNOSeg-XS model, which is resolution robust, fast, memory efficient, and extremely parameter efficient. When tested on the BraTS'23, KiTS'23, and MVSeg'23 datasets with a Tesla V100 GPU, HNOSeg-XS showed its superior resolution robustness with fewer than 34.7k model parameters. It also achieved the overall best inference time (< 0.24 s) and memory efficiency (< 1.8 GiB) compared to the tested CNN and transformer models.
- Abstract(参考訳): 医療画像のセグメンテーションでは、畳み込みニューラルネットワーク(CNN)とトランスフォーマーが主流である。
CNNの場合、畳み込み層の局所受容場を考えると、長距離空間相関は連続的な畳み込みとプーリングによって捉えられる。
しかし、計算コストとメモリフットプリントが禁じられるため、3Dモデルは受容場と抽象レベルを減らした2Dモデルよりも少ない層しか持たない。
変換器の場合、長距離相関は多面的注意によって捉えることができるが、入力サイズに対する2次複雑さは計算的に要求される。
したがって、いずれのモデルも、より良いセグメンテーションのためにより多くのフィルタと層を可能にするために、入力サイズを削減する必要があるかもしれない。
それでも、個々の性質を考えると、パッチワイドトレーニングやイメージダウンサンプリングで訓練されたモデルは、より高い解像度に適用した場合、最適以下の結果をもたらす可能性がある。
この問題に対処するため,HNOSeg-XSアーキテクチャを提案する。
ゼロショット超解像特性を持つフーリエニューラル演算子による学習可能な偏微分方程式による画像分割をモデル化する。
フーリエ変換をハートレー変換に置き換え、周波数領域の問題を再構成することにより、高分解能、高速、メモリ効率、極めてパラメータ効率の高いHNOSeg-XSモデルを開発した。
BraTS'23、KiTS'23、MVSeg'23データセットをTesla V100 GPUでテストすると、HNOSeg-XSは34.7kモデルパラメータ未満で優れた解像度の堅牢性を示した。
また、テストされたCNNやトランスフォーマーモデルと比較して、全体的な最高の推論時間 (0.24 s) とメモリ効率 (1.8 GiB) を達成した。
関連論文リスト
- FlexGS: Train Once, Deploy Everywhere with Many-in-One Flexible 3D Gaussian Splatting [57.97160965244424]
3Dガウススプラッティング(3DGS)は、3Dシーン表現や新しいビュー合成に様々な応用を可能にしている。
従来のアプローチでは、重要でないガウス人を刈り取ることに重点を置いており、3DGSを効果的に圧縮している。
本稿では3DGSの弾性推論手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T17:17:57Z) - FNOSeg3D: Resolution-Robust 3D Image Segmentation with Fourier Neural
Operator [4.48473804240016]
フーリエニューラル演算子(FNO)に基づく画像解像度のトレーニングに頑健な3次元セグメンテーションモデルFNOSeg3Dを導入する。
BraTS'19データセットでテストすると、モデルパラメータの1%未満の他のテストモデルよりも、画像解像度のトレーニングに優れた堅牢性を達成した。
論文 参考訳(メタデータ) (2023-10-05T19:58:36Z) - HartleyMHA: Self-Attention in Frequency Domain for Resolution-Robust and
Parameter-Efficient 3D Image Segmentation [4.48473804240016]
本稿では,効率的な自己注意による画像解像度のトレーニングに頑健なHartleyMHAモデルを提案する。
我々は、モデルサイズを桁違いに小さくするために、共有パラメータを持つハートレー変換を用いてFNOを変更する。
BraTS'19データセットでテストすると、モデルパラメータの1%未満の他のテストモデルよりも、画像解像度のトレーニングに優れた堅牢性を達成した。
論文 参考訳(メタデータ) (2023-10-05T18:44:41Z) - Towards Optimal Patch Size in Vision Transformers for Tumor Segmentation [2.4540404783565433]
転移性大腸癌(mCRC)における腫瘍の検出は,肝癌の早期診断と治療において重要な役割を担っている。
完全畳み込みニューラルネットワーク(FCNN)によってバックボンドされたディープラーニングモデルは、3Dコンピュータ断層撮影(CT)スキャンのセグメンテーションにおいて支配的なモデルとなっている。
視覚変換器は、FCNNの受容野の局所性を解決するために導入された。
本稿では,転移病変の平均体積サイズに基づいて,視覚変換器の最適入力多重解像度画像パッチサイズを選択する手法を提案する。
論文 参考訳(メタデータ) (2023-08-31T09:57:27Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。