論文の概要: 3D-EffiViTCaps: 3D Efficient Vision Transformer with Capsule for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2403.16350v1
- Date: Mon, 25 Mar 2024 00:59:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 16:26:58.780506
- Title: 3D-EffiViTCaps: 3D Efficient Vision Transformer with Capsule for Medical Image Segmentation
- Title(参考訳): 3D-EffiViTCaps:医用画像分割用カプセル付き3D高能率ビジョントランス
- Authors: Dongwei Gan, Ming Chang, Juan Chen,
- Abstract要約: 本稿では,U字型3Dエンコーダデコーダネットワークである3D-EffiViTCapsを提案する。
エンコーダはカプセルブロックとEfficientViTブロックを使用して局所的およびグローバルなセマンティック情報を共同でキャプチャする。
我々のデコーダはCNNブロックとEfficientViTブロックを使用してセグメンテーションのフナーの詳細をキャッチします。
- 参考スコア(独自算出の注目度): 3.3561661617196843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical image segmentation (MIS) aims to finely segment various organs. It requires grasping global information from both parts and the entire image for better segmenting, and clinically there are often certain requirements for segmentation efficiency. Convolutional neural networks (CNNs) have made considerable achievements in MIS. However, they are difficult to fully collect global context information and their pooling layer may cause information loss. Capsule networks, which combine the benefits of CNNs while taking into account additional information such as relative location that CNNs do not, have lately demonstrated some advantages in MIS. Vision Transformer (ViT) employs transformers in visual tasks. Transformer based on attention mechanism has excellent global inductive modeling capabilities and is expected to capture longrange information. Moreover, there have been resent studies on making ViT more lightweight to minimize model complexity and increase efficiency. In this paper, we propose a U-shaped 3D encoder-decoder network named 3D-EffiViTCaps, which combines 3D capsule blocks with 3D EfficientViT blocks for MIS. Our encoder uses capsule blocks and EfficientViT blocks to jointly capture local and global semantic information more effectively and efficiently with less information loss, while the decoder employs CNN blocks and EfficientViT blocks to catch ffner details for segmentation. We conduct experiments on various datasets, including iSeg-2017, Hippocampus and Cardiac to verify the performance and efficiency of 3D-EffiViTCaps, which performs better than previous 3D CNN-based, 3D Capsule-based and 3D Transformer-based models. We further implement a series of ablation experiments on the main blocks. Our code is available at: https://github.com/HidNeuron/3D-EffiViTCaps.
- Abstract(参考訳): 医用イメージセグメンテーション(MIS)は、様々な臓器を微細にセグメンテーションすることを目的としている。
より優れたセグメンテーションのために、部分と全体像からグローバルな情報を把握する必要があるが、臨床にはセグメンテーションの効率に一定の要件があることが多い。
畳み込みニューラルネットワーク(CNN)はMISでかなりの成果を上げている。
しかし,グローバルなコンテキスト情報を完全に収集することは困難であり,プール層が情報損失を引き起こす可能性がある。
カプセルネットワークはCNNの利点と、CNNがしない相対的な位置などの付加的な情報を組み合わせており、近年MISにおいていくつかの利点を実証している。
Vision Transformer (ViT) は、視覚タスクにトランスフォーマーを使用する。
注意機構に基づくトランスフォーマーは、優れたグローバルインダクティブモデリング機能を備え、長距離情報のキャプチャが期待できる。
さらに、ViTをより軽量にし、モデルの複雑さを最小化し、効率を向上させるための研究も行われている。
本稿では,3DカプセルブロックとMIS用3D効率的なViTブロックを組み合わせた,U字型3Dエンコーダデコーダネットワークである3D-EffiViTCapsを提案する。
我々のエンコーダはカプセルブロックとEfficientViTブロックを使用して局所的およびグローバルなセマンティック情報をより効率的かつ効率的に取得し、デコーダはCNNブロックとEfficientViTブロックを使用してセグメンテーションのフナー詳細を捕捉する。
iSeg-2017, Hippocampus, Cardiacなどのさまざまなデータセットを用いて,従来の3D CNNベース, 3D Capsuleベース, 3D Transformerベースモデルよりも優れた3D-EffiViTCapsの性能と効率を検証する実験を行った。
主ブロック上での一連のアブレーション実験も実施する。
私たちのコードは、https://github.com/HidNeuron/3D-EffiViTCapsで利用可能です。
関連論文リスト
- Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression [78.93023152602525]
スロー推論速度は、自律運転のようなリアルタイムの要求の高いタスクにマルチビュー3D検出器を配置する上で最も重要な問題の一つである。
TokenCompression3D (ToC3D) と呼ばれるシンプルで効果的な方法を提案する。
提案手法は, 最大30%の推論スピードアップで最近のSOTAの性能をほぼ維持できる。
論文 参考訳(メタデータ) (2024-09-01T06:58:08Z) - SegFormer3D: an Efficient Transformer for 3D Medical Image Segmentation [0.13654846342364302]
マルチスケールボリューム機能にまたがる注目度を算出する階層変換器であるSegFormer3Dを提案する。
SegFormer3Dは複雑なデコーダを避け、全MLPデコーダを使用して、ローカルおよびグローバルなアテンション機能を集約する。
広く使われている3つのデータセット上で、現在のSOTAモデルに対してSegFormer3Dをベンチマークする。
論文 参考訳(メタデータ) (2024-04-15T22:12:05Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Dynamic Linear Transformer for 3D Biomedical Image Segmentation [2.440109381823186]
トランスフォーマーベースのニューラルネットワークは、多くのバイオメディカルイメージセグメンテーションタスクにおいて、有望なパフォーマンスを上回っている。
3次元トランスを用いた分割法の主な課題は、自己認識機構によって引き起こされる二次的複雑性である。
本稿では,エンコーダ・デコーダ方式の線形複雑化を用いた3次元医用画像分割のためのトランスフォーマアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-01T21:15:01Z) - 3DConvCaps: 3DUnet with Convolutional Capsule Encoder for Medical Image
Segmentation [1.863532786702135]
本稿では,畳み込み層を用いた低レベル特徴(短距離注意)を学習するために,畳み込みカプセル(3DConvCaps)を用いた3Dエンコーダデコーダネットワークを提案する。
iSeg-2017、Hippocampus、Cardiacを含む複数のデータセットに関する実験では、我々の3D3DConvCapsネットワークが、以前のカプセルネットワークや3D-UNetsよりもかなり優れていることを示した。
論文 参考訳(メタデータ) (2022-05-19T03:00:04Z) - 3D-UCaps: 3D Capsules Unet for Volumetric Image Segmentation [11.312343928772993]
医用ボリューム画像分割のための3Dボクセルベースのカプセルネットワークである3D-UCapsを提案する。
提案手法は,従来のCapsuleネットワークと3D-Unetsより優れていた。
論文 参考訳(メタデータ) (2022-03-16T22:02:37Z) - CoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image
Segmentation [95.51455777713092]
畳み込みニューラルネットワーク(CNN)は、現代の3D医療画像セグメンテーションのデファクトスタンダードとなっている。
本稿では,bf畳み込みニューラルネットワークとbfトランスbf(cotr)を効率良く橋渡しし,正確な3次元医用画像分割を実現する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T13:34:22Z) - Learning Hybrid Representations for Automatic 3D Vessel Centerline
Extraction [57.74609918453932]
3次元医用画像からの血管の自動抽出は血管疾患の診断に不可欠である。
既存の方法では、3次元画像からそのような細い管状構造を分割する際に、抽出された容器の不連続に悩まされることがある。
抽出された船舶の連続性を維持するためには、地球的幾何学を考慮に入れる必要があると論じる。
この課題を解決するためのハイブリッド表現学習手法を提案します。
論文 参考訳(メタデータ) (2020-12-14T05:22:49Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - CAKES: Channel-wise Automatic KErnel Shrinking for Efficient 3D Networks [87.02416370081123]
3次元畳み込みニューラルネットワーク(CNN)は,映像解析やボリューム画像認識などの3次元シーン理解に広く応用されている。
本稿では,標準的な3Dコンボリューションを一連の経済活動に縮小させることで,効率的な3D学習を実現するために,チャネルワイドなKErnel Shrinking(CAKES)を提案する。
論文 参考訳(メタデータ) (2020-03-28T14:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。