論文の概要: Segment as You Wish -- Free-Form Language-Based Segmentation for Medical Images
- arxiv url: http://arxiv.org/abs/2410.12831v1
- Date: Wed, 02 Oct 2024 16:34:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-20 09:41:05.894177
- Title: Segment as You Wish -- Free-Form Language-Based Segmentation for Medical Images
- Title(参考訳): 好きなようにセグメンテーション -- 医療画像のためのフリーフォーム言語ベースのセグメンテーション
- Authors: Longchao Da, Rui Wang, Xiaojian Xu, Parminder Bhatia, Taha Kass-Hout, Hua Wei, Cao Xiao,
- Abstract要約: フリーフォームなテキストプロンプトを処理する新しい医用画像セグメンテーションモデルであるFLanSを紹介する。
FLanSは、7つの公開データセットから100万以上の医療画像の大規模なデータセットでトレーニングされている。
- 参考スコア(独自算出の注目度): 30.673958586581904
- License:
- Abstract: Medical imaging is crucial for diagnosing a patient's health condition, and accurate segmentation of these images is essential for isolating regions of interest to ensure precise diagnosis and treatment planning. Existing methods primarily rely on bounding boxes or point-based prompts, while few have explored text-related prompts, despite clinicians often describing their observations and instructions in natural language. To address this gap, we first propose a RAG-based free-form text prompt generator, that leverages the domain corpus to generate diverse and realistic descriptions. Then, we introduce FLanS, a novel medical image segmentation model that handles various free-form text prompts, including professional anatomy-informed queries, anatomy-agnostic position-driven queries, and anatomy-agnostic size-driven queries. Additionally, our model also incorporates a symmetry-aware canonicalization module to ensure consistent, accurate segmentations across varying scan orientations and reduce confusion between the anatomical position of an organ and its appearance in the scan. FLanS is trained on a large-scale dataset of over 100k medical images from 7 public datasets. Comprehensive experiments demonstrate the model's superior language understanding and segmentation precision, along with a deep comprehension of the relationship between them, outperforming SOTA baselines on both in-domain and out-of-domain datasets.
- Abstract(参考訳): 医療画像は患者の健康状態の診断に不可欠であり、これらの画像の正確なセグメンテーションは、正確な診断と治療計画を確保するために、関心領域の分離に不可欠である。
既存の手法は主にバウンディングボックスやポイントベースのプロンプトに依存しているが、テキスト関連のプロンプトを探索する人は少ない。
このギャップに対処するために、まず、ドメインコーパスを利用して多様なリアルな記述を生成するRAGベースのフリーフォームテキストプロンプトジェネレータを提案する。
そこで、FLanSは、プロの解剖学的インフォームドクエリ、解剖学的非依存的な位置駆動クエリ、解剖学的サイズ駆動クエリなど、様々な自由形式のテキストプロンプトを処理する新しい医療画像セグメンテーションモデルである。
さらに,本モデルでは,各スキャン方向の整合性,正確なセグメンテーションを保証し,臓器の解剖学的位置とスキャンの外観との混乱を軽減するために,対称性を意識した正準化モジュールも組み込んでいる。
FLanSは、7つの公開データセットから100万以上の医療画像の大規模なデータセットでトレーニングされている。
包括的な実験では、モデルが優れた言語理解とセグメンテーションの精度を示し、それらの関係を深く理解し、ドメイン内とドメイン外の両方のデータセットでSOTAベースラインを上回ります。
関連論文リスト
- SGSeg: Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance [10.075820470715374]
テキストフリー推論(ユニモーダル)を実現しつつ、学習のための言語指導(マルチモーダル)を活用するセルフガイドセグメンテーションフレームワーク(SGSeg)を提案する。
本報告では, 肺, 病理組織ともに重要な位置情報を活用するとともに, 自己指導のための臨床報告を生成するために, 新たな局所化強化レポート生成(LERG)モジュールを導入する。
我々のLERGは、位置認識型擬似ラベル抽出モジュールによって弱制御された、オブジェクト検出器と位置ベースアグリゲータを統合している。
論文 参考訳(メタデータ) (2024-09-07T08:16:00Z) - LSMS: Language-guided Scale-aware MedSegmentor for Medical Image Referring Segmentation [7.912408164613206]
医用画像参照(MIRS)は、与えられた言語表現に基づく画像の断片化を必要とする。
LSMS(Language-guided Scale-Aware MedSegmentor)というアプローチを提案する。
LSMSは計算コストが低いすべてのデータセットで一貫してパフォーマンスが向上します。
論文 参考訳(メタデータ) (2024-08-30T15:22:13Z) - Scribble-Based Interactive Segmentation of Medical Hyperspectral Images [4.675955891956077]
本研究は、医用ハイパースペクトル画像のためのスクリブルベースのインタラクティブセグメンテーションフレームワークを導入する。
提案手法は,特徴抽出のための深層学習と,ユーザが提供するスクリブルから生成された測地距離マップを利用する。
論文 参考訳(メタデータ) (2024-08-05T12:33:07Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - ContourDiff: Unpaired Image Translation with Contour-Guided Diffusion Models [14.487188068402178]
異なるモードにわたる正確な医療画像の翻訳には、多くの下流臨床および機械学習の応用がある。
画像のドメイン不変な解剖学的輪郭表現を利用する新しいフレームワークであるContourDiffを提案する。
本手法は,CTからMRIに変換された画像に対して,元のCTマスクを用いてセグメント化モデルを訓練し,その性能を実MRIで検証することによって評価する。
論文 参考訳(メタデータ) (2024-03-16T03:33:52Z) - Anatomical Structure-Guided Medical Vision-Language Pre-training [21.68719061251635]
医用視覚表現を学習するための解剖学的構造ガイド(ASG)フレームワークを提案する。
解剖学的領域に対しては,放射線技師と協調して自動解剖学的領域文アライメントパラダイムを設計する。
画像の特徴を各サンプル内の各タグに関連付けるために,画像タグ認識デコーダを適用して画像タグとみなす。
論文 参考訳(メタデータ) (2024-03-14T11:29:47Z) - Region-based Contrastive Pretraining for Medical Image Retrieval with
Anatomic Query [56.54255735943497]
医用画像検索のための地域別コントラスト事前トレーニング(RegionMIR)
医用画像検索のための領域ベースコントラスト事前トレーニング(RegionMIR)について紹介する。
論文 参考訳(メタデータ) (2023-05-09T16:46:33Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。