論文の概要: TAMISeg: Text-Aligned Multi-scale Medical Image Segmentation with Semantic Encoder Distillation
- arxiv url: http://arxiv.org/abs/2604.10912v1
- Date: Mon, 13 Apr 2026 02:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.279273
- Title: TAMISeg: Text-Aligned Multi-scale Medical Image Segmentation with Semantic Encoder Distillation
- Title(参考訳): TAMISeg:セマンティックエンコーダ蒸留によるテキスト対応マルチスケール医用画像セグメンテーション
- Authors: Qiang Gao, Yi Wang, Yong Zhang, Yong Li, Yongbing Deng, Lan Du, Cunjian Chen,
- Abstract要約: 臨床言語プロンプトとセマンティック蒸留を補助的なセマンティックキューとして組み込んだテキスト誘導セグメンテーションフレームワークを提案する。
TAMISegは、堅牢な特徴抽出のために強い摂動で事前訓練された一貫性を意識したエンコーダを統合する。
Kvasir-SEG、MosMedData+、QaTa-COV19データセットの実験により、TAMISegは定性評価と定量的評価の両方において既存のユニモーダル法とマルチモーダル法を一貫して上回っていることが示された。
- 参考スコア(独自算出の注目度): 16.600598318231288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical image segmentation remains challenging due to limited fine-grained annotations, complex anatomical structures, and image degradation from noise, low contrast, or illumination variation. We propose TAMISeg, a text-guided segmentation framework that incorporates clinical language prompts and semantic distillation as auxiliary semantic cues to enhance visual understanding and reduce reliance on pixel-level fine-grained annotations. TAMISeg integrates three core components: a consistency-aware encoder pretrained with strong perturbations for robust feature extraction, a semantic encoder distillation module with supervision from a frozen DINOv3 teacher to enhance semantic discriminability, and a scale-adaptive decoder that segments anatomical structures across different spatial scales. Experiments on the Kvasir-SEG, MosMedData+, and QaTa-COV19 datasets demonstrate that TAMISeg consistently outperforms existing uni-modal and multi-modal methods in both qualitative and quantitative evaluations. Code will be made publicly available at https://github.com/qczggaoqiang/TAMISeg.
- Abstract(参考訳): 医用画像のセグメンテーションは、限られた細かいアノテーション、複雑な解剖学的構造、ノイズ、低コントラスト、照明の変化による画像劣化のため、依然として困難である。
臨床言語プロンプトとセマンティック蒸留を補助的な意味的手がかりとして組み込んだテキスト誘導セグメンテーションフレームワークであるTAMISegを提案する。
TAMISegは、3つのコアコンポーネントを統合している: 堅牢な特徴抽出のために強い摂動で事前訓練された一貫性を意識したエンコーダ、凍結したDINOv3教師の監督を受けたセマンティックエンコーダ蒸留モジュール、そして異なる空間スケールで解剖学的構造を分割するスケール適応デコーダ。
Kvasir-SEG、MosMedData+、QaTa-COV19データセットの実験により、TAMISegは定性評価と定量的評価の両方において既存のユニモーダル法とマルチモーダル法を一貫して上回っていることが示された。
コードはhttps://github.com/qczggaoqiang/TAMISeg.comで公開される。
関連論文リスト
- Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation [51.509572354327986]
本稿では,CTRG(Computed Tomography Report Generation)に適した新しい2段階(構造とレポートの学習)フレームワークを提案する。
第1段階では、CT画像中の対応する構造を学習可能な構造特異的な視覚的クエリーの集合を観察し、その結果として得られる観察トークンと、それに伴う放射線学レポートから抽出された構造特異的なテキスト特徴とを、構造的に画像テキストのコントラストロスとで対比する。
第2段階では、視覚構造クエリを凍結し、各解剖学的構造を描写したクリティカルイメージパッチ埋め込みを選択するために使用し、メモリ消費を低減しつつ、無関係領域からの注意を最小化する。
論文 参考訳(メタデータ) (2026-03-05T07:07:07Z) - Staged Voxel-Level Deep Reinforcement Learning for 3D Medical Image Segmentation with Noisy Annotations [4.581671524490035]
本稿では,ノイズの多いアノテーションの下での堅牢な医用画像分割のためのエンドツーエンドのVoxel-Level Deep Reinforcement Learningフレームワークを提案する。
このフレームワークは動的反復的な更新戦略を使用して,手作業による介入を必要とせずに,誤ったラベルの影響を自動的に緩和する。
論文 参考訳(メタデータ) (2026-01-07T12:39:54Z) - SwinTF3D: A Lightweight Multimodal Fusion Approach for Text-Guided 3D Medical Image Segmentation [0.30586855806896035]
テキスト誘導型3次元医用画像分割のための視覚的・言語的表現を統一する軽量多モード融合手法であるSwinTF3Dを提案する。
SwinTF3Dは、コンパクトなアーキテクチャにもかかわらず、複数の臓器で競合するDiceとIoUのスコアを達成している。
論文 参考訳(メタデータ) (2025-12-28T11:00:05Z) - TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-24T12:06:26Z) - Text-driven Multiplanar Visual Interaction for Semi-supervised Medical Image Segmentation [48.76848912120607]
半教師付き医用画像セグメンテーションは,高コストなデータアノテーションを緩和するための重要な手法である。
半教師型医用画像セグメンテーションのための新しいテキスト駆動型多面的視覚インタラクションフレームワーク(Termed Text-SemiSeg)を提案する。
我々のフレームワークは3つの主要なモジュールで構成されている。テキスト強化多平面表現(TMR)、カテゴリー認識セマンティックアライメント(CSA)、動的認知強化(DCA)である。
論文 参考訳(メタデータ) (2025-07-16T16:29:30Z) - TABNet: A Triplet Augmentation Self-Recovery Framework with Boundary-Aware Pseudo-Labels for Medical Image Segmentation [4.034121387622003]
本稿では,医用画像分割フレームワークTAB Netを提案する。
三重化自己回復モジュール(TAS)と境界対応擬似ラベル監視モジュール(BAP)から構成されている。
我々は,TAB Netが,スクリブルベースの弱教師付きセグメンテーションにおいて,最先端の手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-07-03T07:50:00Z) - SGTC: Semantic-Guided Triplet Co-training for Sparsely Annotated Semi-Supervised Medical Image Segmentation [12.168303995947795]
本稿では,セマンティックガイド三重項協調学習フレームワークを提案する。
数個のボリュームサンプルの3つのスライスに注釈を付けるだけで、ハイエンドな医用画像セグメンテーションを実現する。
本手法は,スパースアノテーション設定下において,最先端の半教師付き手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-20T03:31:33Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Cascaded Robust Learning at Imperfect Labels for Chest X-ray
Segmentation [61.09321488002978]
不完全アノテーションを用いた胸部X線分割のための新しいカスケードロバスト学習フレームワークを提案する。
モデルは3つの独立したネットワークから成り,ピアネットワークから有用な情報を効果的に学習できる。
提案手法は,従来の手法と比較して,セグメント化タスクの精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-04-05T15:50:16Z) - A Teacher-Student Framework for Semi-supervised Medical Image
Segmentation From Mixed Supervision [62.4773770041279]
そこで我々は,臓器と病変のセグメンテーションのための教師と学生のスタイルに基づくセミ教師付き学習フレームワークを開発した。
我々は,本モデルがバウンディングボックスの品質に対して堅牢であることを示し,フル教師付き学習手法と比較した性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T07:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。