論文の概要: Mobile U-ViT: Revisiting large kernel and U-shaped ViT for efficient medical image segmentation
- arxiv url: http://arxiv.org/abs/2508.01064v1
- Date: Fri, 01 Aug 2025 20:45:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.692226
- Title: Mobile U-ViT: Revisiting large kernel and U-shaped ViT for efficient medical image segmentation
- Title(参考訳): モバイルU-ViT:医用画像分割のための大型カーネルとU字型ViTの再検討
- Authors: Fenghe Tang, Bingkun Nian, Jianrui Ding, Wenxin Ma, Quan Quan, Chengqi Dong, Jie Yang, Wei Liu, S. Kevin Zhou,
- Abstract要約: 医用画像分割に適した移動体U字型視覚変換器(Mobile U-ViT)を提案する。
この設計は、より軽量で高速なトランスフォーマーのような表現学習能力を示す。
計算要求が減っているにもかかわらず、我々のアーキテクチャは8つの公開2Dおよび3Dデータセットで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 22.045663130551446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In clinical practice, medical image analysis often requires efficient execution on resource-constrained mobile devices. However, existing mobile models-primarily optimized for natural images-tend to perform poorly on medical tasks due to the significant information density gap between natural and medical domains. Combining computational efficiency with medical imaging-specific architectural advantages remains a challenge when developing lightweight, universal, and high-performing networks. To address this, we propose a mobile model called Mobile U-shaped Vision Transformer (Mobile U-ViT) tailored for medical image segmentation. Specifically, we employ the newly purposed ConvUtr as a hierarchical patch embedding, featuring a parameter-efficient large-kernel CNN with inverted bottleneck fusion. This design exhibits transformer-like representation learning capacity while being lighter and faster. To enable efficient local-global information exchange, we introduce a novel Large-kernel Local-Global-Local (LGL) block that effectively balances the low information density and high-level semantic discrepancy of medical images. Finally, we incorporate a shallow and lightweight transformer bottleneck for long-range modeling and employ a cascaded decoder with downsample skip connections for dense prediction. Despite its reduced computational demands, our medical-optimized architecture achieves state-of-the-art performance across eight public 2D and 3D datasets covering diverse imaging modalities, including zero-shot testing on four unseen datasets. These results establish it as an efficient yet powerful and generalization solution for mobile medical image analysis. Code is available at https://github.com/FengheTan9/Mobile-U-ViT.
- Abstract(参考訳): 臨床実践において、医療画像解析はリソース制約されたモバイルデバイス上での効率的な実行を必要とすることが多い。
しかし,既存の移動体モデルでは,自然領域と医療領域間の情報密度の差が大きいため,医療業務において不十分な作業を行うために,主に天然画像に最適化されている。
計算効率と医用画像特有のアーキテクチャ上の利点を組み合わせることは、軽量で普遍的で高性能なネットワークを開発する上で依然として課題である。
そこで我々は,医用画像分割に適した移動体U字型視覚変換器(Mobile U-ViT)を提案する。
具体的には、新しい目的を持つConvUtrを階層的なパッチ埋め込みとして採用し、パラメータ効率の高い大カーネルCNNと逆ボトルネック融合を特徴とする。
この設計は、より軽量で高速なトランスフォーマーのような表現学習能力を示す。
ローカル・グローバルな情報交換を効率的に行うために,医療画像の低情報密度と高レベルのセマンティックな相違を効果的にバランスさせる,LGL(Large-kernel Local-Global-Local)ブロックを導入する。
最後に、長距離モデリングに浅度で軽量なトランスフォーマーボトルネックを導入し、密度予測のためにダウンサンプルスキップ接続を持つカスケードデコーダを用いる。
計算要求が減っているにもかかわらず、我々の医療最適化アーキテクチャは、8つの公開2Dおよび3Dデータセットにまたがる最先端のパフォーマンスを実現している。
これらの結果は、モバイル医療画像解析のための効率的かつ強力で一般化されたソリューションとして確立されている。
コードはhttps://github.com/FengheTan9/Mobile-U-ViT.comで入手できる。
関連論文リスト
- MedViT V2: Medical Image Classification with KAN-Integrated Transformers and Dilated Neighborhood Attention [2.13145300583399]
一般的な医用画像分類のための医療ビジョン変換器(MedViTV2)を紹介する。
MedViTV2は前バージョンよりも計算効率が44%高い。
MedMNISTでは4.6%、NonMNISTでは5.8%、MedMNIST-Cベンチマークでは13.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-02-19T13:05:50Z) - EViT-Unet: U-Net Like Efficient Vision Transformer for Medical Image Segmentation on Mobile and Edge Devices [5.307205032859535]
精度を維持しながら計算複雑性を低減できる,効率的なViTベースのセグメンテーションネットワークであるEViT-UNetを提案する。
EViT-UNetは、エンコーダ、デコーダ、ボトルネック層、スキップ接続からなるU字型アーキテクチャ上に構築されている。
実験の結果、EViT-UNetは、計算複雑性を著しく低減しつつ、医用画像のセグメンテーションにおいて高い精度を達成することが示された。
論文 参考訳(メタデータ) (2024-10-19T08:42:53Z) - MobileUtr: Revisiting the relationship between light-weight CNN and
Transformer for efficient medical image segmentation [25.056401513163493]
本研究は,医療画像セグメンテーションのための軽量ユニバーサルネットワークにおけるCNNとトランスフォーマーの関係を再考する。
CNNに固有の帰納バイアスを活用するために、Transformerのような軽量CNNブロック(ConvUtr)をViTのパッチ埋め込みとして抽象化する。
CNNとTransformerをベースとした効率的な医用画像分割モデル(MobileUtr)を構築した。
論文 参考訳(メタデータ) (2023-12-04T09:04:05Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - CMUNeXt: An Efficient Medical Image Segmentation Network based on Large
Kernel and Skip Fusion [11.434576556863934]
CMUNeXtは、効率的な完全畳み込み軽量医療画像セグメンテーションネットワークである。
実際のシーンシナリオにおいて、迅速かつ正確な補助診断を可能にする。
論文 参考訳(メタデータ) (2023-08-02T15:54:00Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Medical Transformer: Gated Axial-Attention for Medical Image
Segmentation [73.98974074534497]
医用画像分割タスクにおけるトランスフォーマティブネットワークアーキテクチャの利用可能性について検討する。
セルフアテンションモジュールに追加の制御機構を導入することで,既存のアーキテクチャを拡張するGated Axial-Attentionモデルを提案する。
医療画像上で効果的にモデルを訓練するために,さらにパフォーマンスを向上させる局所的グローバルトレーニング戦略 (logo) を提案する。
論文 参考訳(メタデータ) (2021-02-21T18:35:14Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z) - A Data and Compute Efficient Design for Limited-Resources Deep Learning [68.55415606184]
同変ニューラルネットワークは 深層学習コミュニティへの関心を高めています
医療分野では、データの対称性を効果的に活用して、より正確で堅牢なモデルの構築に成功している。
ディープ・ラーニング・ソリューションのモバイル・オン・デバイス実装は医療応用のために開発されている。
しかし、同変モデルは大規模で計算コストのかかるアーキテクチャを用いて一般的に実装されており、モバイルデバイス上では動作しない。
本研究では、MobileNetV2の同変バージョンを設計、テストし、さらにモデル量子化により最適化し、より効率的な推論を可能にする。
論文 参考訳(メタデータ) (2020-04-21T00:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。