論文の概要: Hierarchical Text-Guided Brain Tumor Segmentation via Sub-Region-Aware Prompts
- arxiv url: http://arxiv.org/abs/2603.21083v1
- Date: Sun, 22 Mar 2026 06:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.229145
- Title: Hierarchical Text-Guided Brain Tumor Segmentation via Sub-Region-Aware Prompts
- Title(参考訳): サブレジオン・アウェア・プロンプによる階層的テキストガイド脳腫瘍切除
- Authors: Bahram Mohammadi, Ta Duc Huy, Afrouz Sheikholeslami, Qi Chen, Vu Minh Hieu Phan, Sam White, Minh-Son To, Xuyun Zhang, Amin Beheshti, Luping Zhou, Yuankai Qi,
- Abstract要約: TextBraTSは、TextBraTSベースライン上に3つの新しいコンポーネントで構築された階層的なテキスト誘導フレームワークである。
学習可能なソフトプロンプトをLoRA適応BioBERTエンコーダで使用するサブリージョン対応プロンプトチューニングでは,各サブリージョンに適した特殊なテキスト表現を生成する。
TextBraTSデータセットの実験では、DiceとHD95で、最先端のメソッドに対して、すべてのサブリージョンで1.7%と6%の一貫性のある改善が示されている。
- 参考スコア(独自算出の注目度): 50.36510050690281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Brain tumor segmentation remains challenging because the three standard sub-regions, i.e., whole tumor (WT), tumor core (TC), and enhancing tumor (ET), often exhibit ambiguous visual boundaries. Integrating radiological description texts with imaging has shown promise. However, most multimodal approaches typically compress a report into a single global text embedding shared across all sub-regions, overlooking their distinct clinical characteristics. We propose TextCSP (text-modulated soft cascade architecture), a hierarchical text-guided framework that builds on the TextBraTS baseline with three novel components: (1) a text-modulated soft cascade decoder that predicts WT->TC->ET in a coarse-to-fine manner consistent with their anatomical containment hierarchy. (2) sub-region-aware prompt tuning, which uses learnable soft prompts with a LoRA-adapted BioBERT encoder to generate specialized text representations tailored for each sub-region; (3) text-semantic channel modulators that convert the aforementioned representations into channel-wise refinement signals, enabling the decoder to emphasize features aligned with clinically described patterns. Experiments on the TextBraTS dataset demonstrate consistent improvements across all sub-regions against state-of-the-art methods by 1.7% and 6% on the main metrics Dice and HD95.
- Abstract(参考訳): 脳腫瘍の亜領域(WT)、腫瘍コア(TC)、拡張腫瘍(ET)の3つの標準領域は、しばしば曖昧な視覚境界を示すため、脳腫瘍の分節は依然として困難である。
放射線学的記述テキストと画像の統合は、有望であることを示している。
しかしながら、ほとんどのマルチモーダルアプローチは、通常、レポートをすべてのサブリージョンで共有される単一のグローバルテキスト埋め込みに圧縮する。
本研究では,TextBraTSベースライン上に構築された階層型テキストガイドフレームワークであるTextCSP(text-modulated soft cascade architecture)を提案する。
2)LoRA適応BioBERTエンコーダを用いて学習可能なソフトプロンプトを用いて,各サブリージョンに適した特殊なテキスト表現を生成するサブリージョン対応プロンプトチューニング,(3) 上記の表現をチャネルワイズ信号に変換するテキストセマンティックチャネル変調器により,臨床的に記述されたパターンに整合した特徴を強調する。
TextBraTSデータセットの実験では、DiceとHD95で、最先端のメソッドに対して、すべてのサブリージョンで1.7%と6%の一貫性のある改善が示されている。
関連論文リスト
- TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-24T12:06:26Z) - XBusNet: Text-Guided Breast Ultrasound Segmentation via Multimodal Vision-Language Learning [0.0]
XBusNetは、画像の特徴と臨床的な接地されたテキストを組み合わせた、新しいデュアルプロンプトでデュアルブランチのマルチモーダルモデルである。
5倍のクロスバリデーションを用いて,乳腺病変USG(BLU)データセット上で評価を行った。
小さな病変は最大の増加を示し、欠落した領域は少なく、急激な活性化は少ない。
論文 参考訳(メタデータ) (2025-09-08T20:45:55Z) - MedRegion-CT: Region-Focused Multimodal LLM for Comprehensive 3D CT Report Generation [1.6515663221123749]
本稿では,MLLMフレームワークであるMedRegion-CTを提案する。
まず,2次元事前学習型視覚モデルを用いて3次元CTの特徴を効率よく抽出する地域代表(R2$)トークンプーリングを紹介する。
次に、ユニバーサルセグメンテーションモデルが擬似マスクを生成し、マスクエンコーダによって処理され、領域中心の特徴を抽出する。
第3に, 臓器の大きさ, 径, 位置など, 患者固有の属性を抽出するために, セグメンテーション結果を活用する。
論文 参考訳(メタデータ) (2025-06-29T06:08:55Z) - Large Language Model with Region-guided Referring and Grounding for CT Report Generation [4.804660464589285]
既存の方法は主にボリューム全体のグローバルな特徴についてのみ考慮する。
我々は,CTレポート生成のための第1の領域誘導参照およびグラウンドディングフレームワークであるReg2RGを提案する。
論文 参考訳(メタデータ) (2024-11-23T12:25:06Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - GuideGen: A Text-Guided Framework for Full-torso Anatomy and CT Volume Generation [1.138481191622247]
GuideGenは、フリーフォームのテキストプロンプトに基づいて、胸部から骨盤まで、解剖学的マスクとそれに対応するCTボリュームを生成する制御可能なフレームワークである。
提案手法は,リアルなフルトルソ解剖を作成するためのテキスト条件セマンティックシンセサイザー,コントラストを意識した様々なコントラストレベルの詳細な特徴抽出用オートエンコーダ,CT画像,解剖学的セマンティクス,入力プロンプト間のアライメントを保証する潜在特徴生成装置の3つのコアコンポーネントを含む。
論文 参考訳(メタデータ) (2024-03-12T02:09:39Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - BCS-Net: Boundary, Context and Semantic for Automatic COVID-19 Lung
Infection Segmentation from CT Images [83.82141604007899]
BCS-Netは、CT画像から自動的に新型コロナウイルスの肺感染症を分離するための新しいネットワークである。
BCS-Netはエンコーダ-デコーダアーキテクチャに従っており、多くの設計はデコーダのステージに焦点を当てている。
BCSRブロックでは、アテンション誘導グローバルコンテキスト(AGGC)モジュールがデコーダの最も価値のあるエンコーダ機能を学ぶように設計されている。
論文 参考訳(メタデータ) (2022-07-17T08:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。