論文の概要: HResFormer: Hybrid Residual Transformer for Volumetric Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2412.11458v1
- Date: Mon, 16 Dec 2024 05:32:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:11.350654
- Title: HResFormer: Hybrid Residual Transformer for Volumetric Medical Image Segmentation
- Title(参考訳): HResFormer: ボリューム・メディカル・イメージ・セグメンテーションのためのハイブリッド残像変換器
- Authors: Sucheng Ren, Xiaomeng Li,
- Abstract要約: ビジョントランスフォーマーは、長距離依存を学習する能力により、医用画像セグメンテーションにおいて大きな優位性を示す。
医用画像分割のための新しいtextbfHybrid textbfResidual transtextbfFormer textbf(HResFormer)を提案する。
- 参考スコア(独自算出の注目度): 17.735791373128986
- License:
- Abstract: Vision Transformer shows great superiority in medical image segmentation due to the ability in learning long-range dependency. For medical image segmentation from 3D data, such as computed tomography (CT), existing methods can be broadly classified into 2D-based and 3D-based methods. One key limitation in 2D-based methods is that the intra-slice information is ignored, while the limitation in 3D-based methods is the high computation cost and memory consumption, resulting in a limited feature representation for inner-slice information. During the clinical examination, radiologists primarily use the axial plane and then routinely review both axial and coronal planes to form a 3D understanding of anatomy. Motivated by this fact, our key insight is to design a hybrid model which can first learn fine-grained inner-slice information and then generate a 3D understanding of anatomy by incorporating 3D information. We present a novel \textbf{H}ybrid \textbf{Res}idual trans\textbf{Former} \textbf{(HResFormer)} for 3D medical image segmentation. Building upon standard 2D and 3D Transformer backbones, HResFormer involves two novel key designs: \textbf{(1)} a \textbf{H}ybrid \textbf{L}ocal-\textbf{G}lobal fusion \textbf{M}odule \textbf{(HLGM)} to effectively and adaptively fuse inner-slice information from 2D Transformer and intra-slice information from 3D volumes for 3D Transformer with local fine-grained and global long-range representation. \textbf{(2)} a residual learning of the hybrid model, which can effectively leverage the inner-slice and intra-slice information for better 3D understanding of anatomy. Experiments show that our HResFormer outperforms prior art on widely-used medical image segmentation benchmarks. This paper sheds light on an important but neglected way to design Transformers for 3D medical image segmentation.
- Abstract(参考訳): ビジョントランスフォーマーは、長距離依存を学習する能力により、医用画像セグメンテーションにおいて大きな優位性を示す。
CT(Computerd tomography)などの3Dデータからの医用画像のセグメンテーションでは、既存の手法は2Dベースと3Dベースに大別できる。
2Dベースの手法における1つの重要な制限は、内部スライス情報の無視であり、3Dベースの手法における制限は高い計算コストとメモリ消費であり、それによって内部スライス情報の限られた特徴表現となる。
臨床検査では、主に軸面を使用し、その後、軸面とコロナ面の両方を定期的にレビューし、解剖学の3D理解を形成する。
この事実に触発された私たちの重要な洞察は、まずきめ細かい内部スライス情報を学習し、3D情報を組み込むことで解剖学の3D理解を生成するハイブリッドモデルを設計することである。
本稿では,3次元医用画像分割のための新しい \textbf{H}ybrid \textbf{Res}idual trans\textbf{Former} \textbf{(HResFormer)} を提案する。
HResFormerは標準的な2Dおよび3Dトランスフォーマーのバックボーンをベースとして、2Dトランスフォーマーの内スライス情報を効果的かつ適応的に融合し、3Dトランスフォーマーの3Dボリュームからの内スライス情報を局所的な細粒度および大域的な長距離表現を持つ3Dトランスフォーマーの3Dボリュームからイントラスライスする。
\textbf{(2)} は、内スライスと内スライス情報を効果的に活用し、解剖学のより優れた3次元理解を可能にするハイブリッドモデルの残差学習である。
HResFormerは、広く使われている医用画像セグメンテーションのベンチマークにおいて、先行技術よりも優れています。
本論文は,3次元医用画像分割のためのトランスフォーマーの設計方法として,重要だが無視された方法に光を当てる。
関連論文リスト
- FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。
このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。
本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-13T01:25:05Z) - Diff3Dformer: Leveraging Slice Sequence Diffusion for Enhanced 3D CT Classification with Transformer Networks [5.806035963947936]
拡散型3次元視覚変換器(Diff3Dformer)を提案する。
本手法は, 肺CTの2種類の小さなデータセットに対して, 改良された性能を示す。
論文 参考訳(メタデータ) (2024-06-24T23:23:18Z) - Cross-Dimensional Medical Self-Supervised Representation Learning Based on a Pseudo-3D Transformation [68.60747298865394]
擬似3D変換(CDSSL-P3D)に基づく新しい三次元SSLフレームワークを提案する。
具体的には、2D画像を3Dデータに整合したフォーマットに変換するim2colアルゴリズムに基づく画像変換を提案する。
この変換は2次元および3次元データのシームレスな統合を可能にし、3次元医用画像解析のための相互教師あり学習を容易にする。
論文 参考訳(メタデータ) (2024-06-03T02:57:25Z) - Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。
入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:59:45Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - Multi-dimension unified Swin Transformer for 3D Lesion Segmentation in
Multiple Anatomical Locations [1.7413461132662074]
3次元病変分割のためのMDU-ST(multi-dimension unified Swin transformer)と呼ばれる新しいモデルを提案する。
ネットワークの性能はDice similarity coefficient(DSC)とHausdorff distance(HD)で内部の3D病変データセットを用いて評価される。
提案手法は, 放射線学および腫瘍成長モデル研究を支援するために, 自動3次元病変セグメンテーションを行うために用いられる。
論文 参考訳(メタデータ) (2023-09-04T21:24:00Z) - 3D Matting: A Soft Segmentation Method Applied in Computed Tomography [26.25446145993599]
CT、MRI、PETなどの3次元画像は、医用画像の分野では一般的であり、臨床診断において重要である。
セマンティック曖昧さは多くの医用画像ラベルの典型的な特徴である。
2次元医用画像では、画像マッチングによって生成された2次元マスクの代わりにソフトマスクを用いることで、病変を特徴づけることができる。
論文 参考訳(メタデータ) (2022-09-16T10:18:59Z) - Asymmetric 3D Context Fusion for Universal Lesion Detection [55.61873234187917]
3Dネットワークは、3Dコンテキストでは強いが、教師付き事前トレーニングがない。
既存の3Dコンテキスト融合演算子は空間対称に設計されており、畳み込みのように各2Dスライス上で同一の操作を行う。
本研究では, 異なる重みを持つ非対称な3次元コンテキスト融合演算子 (A3D) を提案し, 異なる2次元スライスから3次元コンテキストを融合させる。
論文 参考訳(メタデータ) (2021-09-17T16:25:10Z) - Spatial Context-Aware Self-Attention Model For Multi-Organ Segmentation [18.76436457395804]
マルチ組織セグメンテーションは、医学画像解析におけるディープラーニングの最も成功した応用の1つである。
深部畳み込みニューラルネット(CNN)は,CT画像やMRI画像上で臨床応用画像のセグメンテーション性能を達成する上で非常に有望である。
本研究では,高分解能2次元畳み込みによりセグメンテーションを実現する3次元モデルと2次元モデルを組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-12-16T21:39:53Z) - Revisiting 3D Context Modeling with Supervised Pre-training for
Universal Lesion Detection in CT Slices [48.85784310158493]
CTスライスにおける普遍的病変検出のための3Dコンテキスト強化2D特徴を効率的に抽出するための修飾擬似3次元特徴ピラミッドネットワーク(MP3D FPN)を提案する。
新たな事前学習手法により,提案したMP3D FPNは,DeepLesionデータセット上での最先端検出性能を実現する。
提案された3Dプリトレーニングウェイトは、他の3D医療画像分析タスクのパフォーマンスを高めるために使用できる。
論文 参考訳(メタデータ) (2020-12-16T07:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。