論文の概要: CAT: Coordinating Anatomical-Textual Prompts for Multi-Organ and Tumor Segmentation
- arxiv url: http://arxiv.org/abs/2406.07085v2
- Date: Thu, 31 Oct 2024 10:06:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:57:32.511189
- Title: CAT: Coordinating Anatomical-Textual Prompts for Multi-Organ and Tumor Segmentation
- Title(参考訳): CAT : 多臓器・腫瘍切除のための解剖学的手技の調整
- Authors: Zhongzhen Huang, Yankai Jiang, Rongzhao Zhang, Shaoting Zhang, Xiaofan Zhang,
- Abstract要約: CATは,医学領域の知識に富んだ3Dクロップ画像から得られた解剖学的プロンプトとテクスチャ的プロンプトをコーディネートする革新的なモデルである。
10のパブリックCTデータセットからなるコンソーシアムでトレーニングされたCATは、複数のセグメンテーションタスクにおいて優れたパフォーマンスを示している。
このアプローチは、マルチモーダルプロンプトのコーディネートが、医療領域における複雑なシナリオに対処するための有望な道であることを確認した。
- 参考スコア(独自算出の注目度): 11.087654014615955
- License:
- Abstract: Existing promptable segmentation methods in the medical imaging field primarily consider either textual or visual prompts to segment relevant objects, yet they often fall short when addressing anomalies in medical images, like tumors, which may vary greatly in shape, size, and appearance. Recognizing the complexity of medical scenarios and the limitations of textual or visual prompts, we propose a novel dual-prompt schema that leverages the complementary strengths of visual and textual prompts for segmenting various organs and tumors. Specifically, we introduce CAT, an innovative model that Coordinates Anatomical prompts derived from 3D cropped images with Textual prompts enriched by medical domain knowledge. The model architecture adopts a general query-based design, where prompt queries facilitate segmentation queries for mask prediction. To synergize two types of prompts within a unified framework, we implement a ShareRefiner, which refines both segmentation and prompt queries while disentangling the two types of prompts. Trained on a consortium of 10 public CT datasets, CAT demonstrates superior performance in multiple segmentation tasks. Further validation on a specialized in-house dataset reveals the remarkable capacity of segmenting tumors across multiple cancer stages. This approach confirms that coordinating multimodal prompts is a promising avenue for addressing complex scenarios in the medical domain.
- Abstract(参考訳): 既存の医用画像領域における即時分割法は、主にテキストまたは視覚的プロンプトで関連オブジェクトを分割するが、腫瘍のような医学画像の異常に対処する際には、しばしば不足する。
医学的シナリオの複雑さとテキストまたは視覚的プロンプトの限界を認識し, 視覚的およびテキスト的プロンプトの相補的強度を利用して, 様々な臓器や腫瘍を分節する新しい二重プロンプトスキーマを提案する。
具体的には、医学領域の知識に富んだテキストによる3Dトリミング画像から得られる解剖学的プロンプトをコーディネートする革新的なモデルであるCATを紹介する。
モデルアーキテクチャは一般的なクエリベースの設計を採用しており、プロンプトクエリはマスク予測のためのセグメンテーションクエリを容易にする。
統合されたフレームワーク内で2つのタイプのプロンプトを相乗化するために,2つのタイプのプロンプトをアンタングしながらセグメンテーションとプロンプトクエリの両方を洗練するShareRefinerを実装した。
10のパブリックCTデータセットからなるコンソーシアムでトレーニングされたCATは、複数のセグメンテーションタスクにおいて優れたパフォーマンスを示している。
特別な社内データセットのさらなる検証により、複数のがんステージにまたがる腫瘍のセグメンテーション能力が明らかになる。
このアプローチは、マルチモーダルプロンプトのコーディネートが、医療領域における複雑なシナリオに対処するための有望な道であることを確認した。
関連論文リスト
- Segment as You Wish -- Free-Form Language-Based Segmentation for Medical Images [30.673958586581904]
フリーフォームなテキストプロンプトを処理する新しい医用画像セグメンテーションモデルであるFLanSを紹介する。
FLanSは、7つの公開データセットから100万以上の医療画像の大規模なデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2024-10-02T16:34:32Z) - MedCLIP-SAMv2: Towards Universal Text-Driven Medical Image Segmentation [2.2585213273821716]
MedCLIP-SAMv2はCLIPとSAMモデルを統合して臨床スキャンのセグメンテーションを行う新しいフレームワークである。
提案手法は,DHN-NCE(Decoupled Hard Negative Noise Contrastive Estimation)によるBiomedCLIPモデルの微調整を含む。
また,ゼロショットセグメンテーションラベルを弱教師付きパラダイム内で使用することにより,セグメンテーション品質をさらに向上する。
論文 参考訳(メタデータ) (2024-09-28T23:10:37Z) - PFPs: Prompt-guided Flexible Pathological Segmentation for Diverse Potential Outcomes Using Large Vision and Language Models [12.895542069443438]
セグメンテーションの柔軟性を高めるために,従来のタスクトークンと並行して,LLM(Large Language Model)を通じて様々なタスクプロンプトを導入する。
コントリビューションは,(1)フレキシブルなマルチクラスセグメンテーションを誘導するために微調整言語プロンプトを用いた計算効率の高いパイプラインを構築し,(2)セグメンテーション性能を自由テキストに対する固定プロンプトと比較し,(3)マルチタスク腎病理セグメンテーションデータセットとそれに対応する各種自由テキストプロンプトを設計する。
論文 参考訳(メタデータ) (2024-07-13T18:51:52Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - A Novel Corpus of Annotated Medical Imaging Reports and Information Extraction Results Using BERT-based Language Models [4.023338734079828]
医療画像は多くの健康状態の診断、監視、治療に重要である。
放射線学者は、これらの複雑で非構造的なイメージを解釈し、ほとんど非構造的のままの物語報告を通じてその評価を明確にする。
この非構造化の物語は、振り返り分析や臨床決定支援のような二次的な応用を促進するために、構造化された意味表現に変換されなければならない。
論文 参考訳(メタデータ) (2024-03-27T19:43:45Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z) - Weakly supervised multiple instance learning histopathological tumor
segmentation [51.085268272912415]
スライド画像全体のセグメント化のための弱教師付きフレームワークを提案する。
トレーニングモデルに複数のインスタンス学習スキームを利用する。
提案するフレームワークは,The Cancer Genome AtlasとPatchCamelyonデータセットのマルチロケーションとマルチ中心公開データに基づいて評価されている。
論文 参考訳(メタデータ) (2020-04-10T13:12:47Z) - Learning Contextualized Document Representations for Healthcare Answer
Retrieval [68.02029435111193]
コンテキスト談話ベクトル(英: Contextual Discourse Vectors、CDV)は、長文からの効率的な回答検索のための分散文書表現である。
本モデルでは,階層型LSTMレイヤとマルチタスクトレーニングを併用したデュアルエンコーダアーキテクチャを用いて,臨床エンティティの位置と文書の談話に沿った側面をエンコードする。
我々の一般化モデルは、医療パスランキングにおいて、最先端のベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2020-02-03T15:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。