論文の概要: Towards Universal Text-driven CT Image Segmentation
- arxiv url: http://arxiv.org/abs/2503.06030v1
- Date: Sat, 08 Mar 2025 03:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:01.324981
- Title: Towards Universal Text-driven CT Image Segmentation
- Title(参考訳): ユニバーサルテキスト駆動型CT画像セグメンテーションに向けて
- Authors: Yuheng Li, Yuxiang Lai, Maria Thor, Deborah Marshall, Zachary Buchwald, David S. Yu, Xiaofeng Yang,
- Abstract要約: 汎用テキスト駆動セグメンテーションのための大規模3次元CT画像を対象とした視覚言語モデルOpenVocabCTを提案する。
診断報告を,多粒性コントラスト学習のための大規模言語モデルを用いて,微細な臓器レベルの記述に分解する。
- 参考スコア(独自算出の注目度): 4.76971404389011
- License:
- Abstract: Computed tomography (CT) is extensively used for accurate visualization and segmentation of organs and lesions. While deep learning models such as convolutional neural networks (CNNs) and vision transformers (ViTs) have significantly improved CT image analysis, their performance often declines when applied to diverse, real-world clinical data. Although foundation models offer a broader and more adaptable solution, their potential is limited due to the challenge of obtaining large-scale, voxel-level annotations for medical images. In response to these challenges, prompting-based models using visual or text prompts have emerged. Visual-prompting methods, such as the Segment Anything Model (SAM), still require significant manual input and can introduce ambiguity when applied to clinical scenarios. Instead, foundation models that use text prompts offer a more versatile and clinically relevant approach. Notably, current text-prompt models, such as the CLIP-Driven Universal Model, are limited to text prompts already encountered during training and struggle to process the complex and diverse scenarios of real-world clinical applications. Instead of fine-tuning models trained from natural imaging, we propose OpenVocabCT, a vision-language model pretrained on large-scale 3D CT images for universal text-driven segmentation. Using the large-scale CT-RATE dataset, we decompose the diagnostic reports into fine-grained, organ-level descriptions using large language models for multi-granular contrastive learning. We evaluate our OpenVocabCT on downstream segmentation tasks across nine public datasets for organ and tumor segmentation, demonstrating the superior performance of our model compared to existing methods. All code, datasets, and models will be publicly released at https://github.com/ricklisz/OpenVocabCT.
- Abstract(参考訳): CT(Computed tomography)は、臓器や病変の正確な可視化とセグメンテーションに広く用いられている。
畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)といったディープラーニングモデルはCT画像解析を著しく改善しているが、多種多様な実世界の臨床データに適用した場合、その性能は低下することが多い。
基礎モデルは、より広く適応可能なソリューションを提供するが、医療画像に対する大規模なボクセルレベルのアノテーションを得るという課題のために、そのポテンシャルは限られている。
これらの課題に対応するために、視覚的またはテキスト的プロンプトを使用したプロンプトベースのモデルが登場した。
SAM(Segment Anything Model)のような視覚的プロンプト法は、依然としてかなりの手動入力を必要としており、臨床シナリオに適用した場合に曖昧さを導入することができる。
代わりに、テキストプロンプトを使用する基礎モデルは、より汎用的で臨床的に関係のあるアプローチを提供する。
特に、CLIP駆動ユニバーサルモデルのような現在のテキストプロンプトモデルは、トレーニング中に既に遭遇したテキストプロンプトに限られており、実際の臨床応用の複雑で多様なシナリオを処理するのに苦労している。
自然画像から訓練された微調整モデルの代わりに,大規模3次元CT画像を用いた視覚言語モデルOpenVocabCTを提案する。
大規模CT-RATEデータセットを用いて,多粒性コントラスト学習のための大規模言語モデルを用いて,診断結果を微細な臓器レベルの記述に分解する。
臓器および腫瘍の分節のための9つの公開データセットの下流セグメンテーションタスクにおけるOpenVocabCTの評価を行い,既存の手法と比較して,我々のモデルの性能が優れていることを示した。
すべてのコード、データセット、モデルはhttps://github.com/ricklisz/OpenVocabCTで公開される。
関連論文リスト
- MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification [19.29480118378639]
全スライド画像分類は、ギガピクセル画像サイズと限定アノテーションラベルによる課題を提示する。
本稿では,数ショットの病理分類に大規模な視覚言語モデルを適用するための素早い学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T09:42:13Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography [50.08496922659307]
本稿では、単一のモデルであるUniversal Modelが複数の公開データセットに対処し、新しいクラスに適応することを可能にするユニバーサルフレームワークを提案する。
まず,大規模言語モデルからの言語埋め込みを利用した新しい言語駆動パラメータ生成手法を提案する。
第二に、従来の出力層は軽量でクラス固有のヘッドに置き換えられ、ユニバーサルモデルでは25の臓器と6種類の腫瘍を同時に分割することができる。
論文 参考訳(メタデータ) (2024-05-28T16:55:15Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Self-Prompting Large Vision Models for Few-Shot Medical Image
Segmentation [14.135249795318591]
本稿では,医療ビジョン応用における自己プロンプトの新たな視点を提案する。
我々は、Segment Anything Modelの埋め込み空間を利用して、単純だが効果的な線形ピクセルワイド分類器を通して自身を誘導する。
複数のデータセットで競合する結果を得る。
論文 参考訳(メタデータ) (2023-08-15T08:20:07Z) - Text-guided Foundation Model Adaptation for Pathological Image
Classification [40.45252665455015]
本稿では、画像とテキストの埋め込み(CITE)を結合して、病理画像分類を強化することを提案する。
CITEは、幅広いバイオメディカルテキストで事前訓練された言語モデルから得られたテキスト洞察を注入し、病理画像理解に基礎モデルを適用する。
論文 参考訳(メタデータ) (2023-07-27T14:44:56Z) - Pick the Best Pre-trained Model: Towards Transferability Estimation for
Medical Image Segmentation [20.03177073703528]
転送学習は、難しい医用画像分割タスクのために、ディープニューラルネットワークをトレーニングする上で重要なテクニックである。
医用画像セグメンテーションのための新しい転送可能性推定法を提案する。
医用画像のセグメンテーションにおける転送可能性推定のアルゴリズムを網羅した手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T01:58:18Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - A Multi-View Joint Learning Framework for Embedding Clinical Codes and
Text Using Graph Neural Networks [23.06795121693656]
我々は,テキストの可用性と前方性,およびICDコードの性能向上を両立させるため,コードとテキストから学習するフレームワークを提案する。
我々のアプローチでは、ICDコードを処理するグラフニューラルネットワーク(GNN)と、テキストを処理するBi-LSTMを用いています。
計画された外科手術用テキストを用いた実験では,BERTモデルが臨床データに微調整されたモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-01-27T09:19:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。