論文の概要: TK-Mamba: Marrying KAN with Mamba for Text-Driven 3D Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2505.18525v1
- Date: Sat, 24 May 2025 05:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.47819
- Title: TK-Mamba: Marrying KAN with Mamba for Text-Driven 3D Medical Image Segmentation
- Title(参考訳): TK-Mamba: テキスト駆動型3次元医用画像セグメンテーションのためのkanとMambaの結婚
- Authors: Haoyu Yang, Yuxiang Cai, Jintao Chen, Xuhong Zhang, Wenhui Lei, Xiaoming Shi, Jianwei Yin, Yankai Jiang,
- Abstract要約: 3次元画像分割は臨床診断と治療に不可欠である。
CNNやTransformerのような従来の単一モダリティネットワークは、計算の非効率性と制約付きコンテキストモデリングによって制限されることが多い。
本稿では,Mamba と Kolmogorov-Arnold Networks (KAN) を長周期モデリングのための効率的なバックボーンとして活用する,新しいマルチモーダルフレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.62310549476759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D medical image segmentation is vital for clinical diagnosis and treatment but is challenged by high-dimensional data and complex spatial dependencies. Traditional single-modality networks, such as CNNs and Transformers, are often limited by computational inefficiency and constrained contextual modeling in 3D settings. We introduce a novel multimodal framework that leverages Mamba and Kolmogorov-Arnold Networks (KAN) as an efficient backbone for long-sequence modeling. Our approach features three key innovations: First, an EGSC (Enhanced Gated Spatial Convolution) module captures spatial information when unfolding 3D images into 1D sequences. Second, we extend Group-Rational KAN (GR-KAN), a Kolmogorov-Arnold Networks variant with rational basis functions, into 3D-Group-Rational KAN (3D-GR-KAN) for 3D medical imaging - its first application in this domain - enabling superior feature representation tailored to volumetric data. Third, a dual-branch text-driven strategy leverages CLIP's text embeddings: one branch swaps one-hot labels for semantic vectors to preserve inter-organ semantic relationships, while the other aligns images with detailed organ descriptions to enhance semantic alignment. Experiments on the Medical Segmentation Decathlon (MSD) and KiTS23 datasets show our method achieving state-of-the-art performance, surpassing existing approaches in accuracy and efficiency. This work highlights the power of combining advanced sequence modeling, extended network architectures, and vision-language synergy to push forward 3D medical image segmentation, delivering a scalable solution for clinical use. The source code is openly available at https://github.com/yhy-whu/TK-Mamba.
- Abstract(参考訳): 3次元画像分割は臨床診断や治療に欠かせないが,高次元データと複雑な空間依存性が問題となる。
CNNやTransformersのような従来の単一モダリティネットワークは、計算の非効率性と3D設定における制約付きコンテキストモデリングによって制限されることが多い。
本稿では,Mamba と Kolmogorov-Arnold Networks (KAN) を長周期モデリングのための効率的なバックボーンとして活用する,新しいマルチモーダルフレームワークを提案する。
まず、EGSCモジュールは3次元画像を1次元配列に展開する際に空間情報をキャプチャする。
第2に,Kolmogorov-Arnold Networks 変種である Group-Rational Kan (GR-KAN) を3次元医用画像のための 3D-Group-Rational Kan (3D-GR-KAN) に拡張した。
1つのブランチは1つのホットラベルをセマンティックベクタに置き換えて、組織間のセマンティックな関係を保ち、もう1つのブランチは、セマンティックアライメントを強化するために、詳細なオルガン記述とイメージをアライメントする。
メディカルセグメンテーション・デカトロン(MSD)とKiTS23データセットの実験は、我々の手法が最先端のパフォーマンスを達成し、既存の精度と効率のアプローチを超越していることを示している。
この研究は、高度なシーケンスモデリング、拡張ネットワークアーキテクチャ、ビジョン言語シナジーを組み合わせることで、3D医療画像セグメンテーションを前進させ、臨床用途にスケーラブルなソリューションを提供する力を強調している。
ソースコードはhttps://github.com/yhy-whu/TK-Mamba.comで公開されている。
関連論文リスト
- Mamba Based Feature Extraction And Adaptive Multilevel Feature Fusion For 3D Tumor Segmentation From Multi-modal Medical Image [8.999013226631893]
マルチモーダルな3次元医用画像分割は、異なるモーダルの腫瘍領域を正確に同定することを目的としている。
従来の畳み込みニューラルネットワーク(CNN)ベースの手法は、グローバルな特徴を捉えるのに苦労する。
トランスフォーマーに基づく手法は,グローバルな文脈を効果的に捉えつつも,3次元医用画像のセグメンテーションにおいて高い計算コストに直面する。
論文 参考訳(メタデータ) (2025-04-30T03:29:55Z) - A Novel Convolutional-Free Method for 3D Medical Imaging Segmentation [0.0]
畳み込みニューラルネットワーク(CNN)がこの分野を支配し、3次元の医用画像セグメンテーションで大きな成功を収めている。
TransUNetやnnFormerのような最近のトランスフォーマーベースのモデルは、これらの制限に対処することを約束している。
本稿では,トランスアーキテクチャと自己認識機構に基づく,新しい完全畳み込みフリーモデルを提案する。
論文 参考訳(メタデータ) (2025-02-08T00:52:45Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z) - Promise:Prompt-driven 3D Medical Image Segmentation Using Pretrained
Image Foundation Models [13.08275555017179]
単点プロンプトのみを用いたプロンプト駆動型3次元医用画像分割モデルProMISeを提案する。
今回,大腸癌と膵腫瘍の2つの領域に分布する2つのパブリックデータセットについて検討した。
論文 参考訳(メタデータ) (2023-10-30T16:49:03Z) - Spatiotemporal Modeling Encounters 3D Medical Image Analysis:
Slice-Shift UNet with Multi-View Fusion [0.0]
本稿では,2次元CNNにおける3次元特徴をエンコードする2次元モデルSlice SHift UNetを提案する。
より正確にマルチビュー機能は、ボリュームの3次元平面に沿って2次元の畳み込みを実行することで協調的に学習される。
提案手法の有効性は,多モード腹部多臓器軸 (AMOS) と Cranial Vault (BTCV) データセットを越えたマルチアトラスラベリング (Multi-Atlas Labeling Beyond the Cranial Vault) で検証した。
論文 参考訳(メタデータ) (2023-07-24T14:53:23Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Volumetric Medical Image Segmentation: A 3D Deep Coarse-to-fine
Framework and Its Adversarial Examples [74.92488215859991]
本稿では,これらの課題に効果的に取り組むために,新しい3Dベースの粗粒度フレームワークを提案する。
提案した3Dベースのフレームワークは、3つの軸すべてに沿ってリッチな空間情報を活用できるため、2Dよりも大きなマージンで優れている。
我々は,3つのデータセット,NIH膵データセット,JHMI膵データセット,JHMI病理嚢胞データセットについて実験を行った。
論文 参考訳(メタデータ) (2020-10-29T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。