論文の概要: SwinTF3D: A Lightweight Multimodal Fusion Approach for Text-Guided 3D Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2512.22878v1
- Date: Sun, 28 Dec 2025 11:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.264875
- Title: SwinTF3D: A Lightweight Multimodal Fusion Approach for Text-Guided 3D Medical Image Segmentation
- Title(参考訳): SwinTF3D:テキスト誘導型3次元医用画像分割のための軽量多モード融合手法
- Authors: Hasan Faraz Khan, Noor Fatima, Muzammil Behzad,
- Abstract要約: テキスト誘導型3次元医用画像分割のための視覚的・言語的表現を統一する軽量多モード融合手法であるSwinTF3Dを提案する。
SwinTF3Dは、コンパクトなアーキテクチャにもかかわらず、複数の臓器で競合するDiceとIoUのスコアを達成している。
- 参考スコア(独自算出の注目度): 0.30586855806896035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent integration of artificial intelligence into medical imaging has driven remarkable advances in automated organ segmentation. However, most existing 3D segmentation frameworks rely exclusively on visual learning from large annotated datasets restricting their adaptability to new domains and clinical tasks. The lack of semantic understanding in these models makes them ineffective in addressing flexible, user-defined segmentation objectives. To overcome these limitations, we propose SwinTF3D, a lightweight multimodal fusion approach that unifies visual and linguistic representations for text-guided 3D medical image segmentation. The model employs a transformer-based visual encoder to extract volumetric features and integrates them with a compact text encoder via an efficient fusion mechanism. This design allows the system to understand natural-language prompts and correctly align semantic cues with their corresponding spatial structures in medical volumes, while producing accurate, context-aware segmentation results with low computational overhead. Extensive experiments on the BTCV dataset demonstrate that SwinTF3D achieves competitive Dice and IoU scores across multiple organs, despite its compact architecture. The model generalizes well to unseen data and offers significant efficiency gains compared to conventional transformer-based segmentation networks. Bridging visual perception with linguistic understanding, SwinTF3D establishes a practical and interpretable paradigm for interactive, text-driven 3D medical image segmentation, opening perspectives for more adaptive and resource-efficient solutions in clinical imaging.
- Abstract(参考訳): 最近の人工知能の医療画像への統合は、自動臓器分割の顕著な進歩をもたらした。
しかし、既存の多くの3Dセグメンテーションフレームワークは、新しいドメインや臨床タスクへの適応性を制限する大きな注釈付きデータセットからの視覚的な学習にのみ依存している。
これらのモデルにおける意味的理解の欠如は、フレキシブルでユーザ定義のセグメンテーションの目的に対処する上で、効果的ではない。
これらの制約を克服するために,テキスト誘導型3次元医用画像分割のための視覚的および言語的表現を統一する,軽量なマルチモーダル融合手法であるSwinTF3Dを提案する。
このモデルは、トランスフォーマーベースのビジュアルエンコーダを使用して、ボリュームの特徴を抽出し、効率的な融合機構を通じてコンパクトテキストエンコーダと統合する。
この設計により、システムは自然言語のプロンプトを理解し、それに対応する空間構造を医療ボリュームで正しく整合させながら、計算オーバーヘッドの少ない正確な文脈認識セグメンテーション結果を生成することができる。
BTCVデータセットに関する大規模な実験は、SwinTF3Dがコンパクトなアーキテクチャにもかかわらず、複数の臓器間で競合するDiceとIoUのスコアを達成することを示した。
このモデルは、従来のトランスフォーマーベースのセグメンテーションネットワークと比較して、見当たらないデータによく一般化し、大幅な効率向上をもたらす。
SwinTF3Dは、言語的理解と視覚的認識を融合させ、インタラクティブでテキスト駆動の3D医療画像セグメンテーションのための実践的で解釈可能なパラダイムを確立し、臨床画像におけるより適応的でリソース効率の良いソリューションへの視点を開く。
関連論文リスト
- TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-24T12:06:26Z) - VELVET-Med: Vision and Efficient Language Pre-training for Volumetric Imaging Tasks in Medicine [11.993301266706139]
我々は,3次元CTや関連する放射線学報告など,限られたボリュームデータを対象とした視覚言語事前学習フレームワーク「textbfVELVET-Med」を提案する。
本研究は,ボリューム医療画像とそれに対応する臨床物語に埋め込まれた,豊かな空間的・意味的関係を明らかにすることを目的としている。
結果として得られるエンコーダは強い転送可能性を示し、幅広い下流タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-16T17:08:43Z) - Text-driven Multiplanar Visual Interaction for Semi-supervised Medical Image Segmentation [48.76848912120607]
半教師付き医用画像セグメンテーションは,高コストなデータアノテーションを緩和するための重要な手法である。
半教師型医用画像セグメンテーションのための新しいテキスト駆動型多面的視覚インタラクションフレームワーク(Termed Text-SemiSeg)を提案する。
我々のフレームワークは3つの主要なモジュールで構成されている。テキスト強化多平面表現(TMR)、カテゴリー認識セマンティックアライメント(CSA)、動的認知強化(DCA)である。
論文 参考訳(メタデータ) (2025-07-16T16:29:30Z) - TK-Mamba: Marrying KAN with Mamba for Text-Driven 3D Medical Image Segmentation [22.62310549476759]
3次元画像分割は臨床診断と治療に不可欠である。
CNNやTransformerのような従来の単一モダリティネットワークは、計算の非効率性と制約付きコンテキストモデリングによって制限されることが多い。
本稿では,Mamba と Kolmogorov-Arnold Networks (KAN) を長周期モデリングのための効率的なバックボーンとして活用する,新しいマルチモーダルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-24T05:41:55Z) - TextDiffSeg: Text-guided Latent Diffusion Model for 3d Medical Images Segmentation [0.0]
テキスト誘導拡散モデルフレームワークであるTextDiffSegは、3Dボリュームデータを自然言語記述と統合する。
複雑な解剖構造を認識するモデルの能力を高めることで、TextDiffSegは革新的なラベル埋め込み技術を取り入れている。
実験の結果、TextDiffSegは腎臓と膵腫瘍を含む分節作業において、既存の方法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-04-16T07:17:36Z) - A Novel Convolutional-Free Method for 3D Medical Imaging Segmentation [0.0]
畳み込みニューラルネットワーク(CNN)がこの分野を支配し、3次元の医用画像セグメンテーションで大きな成功を収めている。
TransUNetやnnFormerのような最近のトランスフォーマーベースのモデルは、これらの制限に対処することを約束している。
本稿では,トランスアーキテクチャと自己認識機構に基づく,新しい完全畳み込みフリーモデルを提案する。
論文 参考訳(メタデータ) (2025-02-08T00:52:45Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Enhancing Weakly Supervised 3D Medical Image Segmentation through Probabilistic-aware Learning [47.700298779672366]
3次元医用画像のセグメンテーションは、疾患の診断と治療計画に重要な意味を持つ課題である。
近年の深層学習の進歩は、完全に教師付き医療画像のセグメンテーションを著しく強化している。
本稿では,3次元医用画像に特化して設計された,確率的適応型弱教師付き学習パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-05T00:46:53Z) - Dynamic Linear Transformer for 3D Biomedical Image Segmentation [2.440109381823186]
トランスフォーマーベースのニューラルネットワークは、多くのバイオメディカルイメージセグメンテーションタスクにおいて、有望なパフォーマンスを上回っている。
3次元トランスを用いた分割法の主な課題は、自己認識機構によって引き起こされる二次的複雑性である。
本稿では,エンコーダ・デコーダ方式の線形複雑化を用いた3次元医用画像分割のためのトランスフォーマアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-01T21:15:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。