論文の概要: Multiscale Progressive Text Prompt Network for Medical Image
Segmentation
- arxiv url: http://arxiv.org/abs/2307.00174v1
- Date: Fri, 30 Jun 2023 23:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 17:31:37.533663
- Title: Multiscale Progressive Text Prompt Network for Medical Image
Segmentation
- Title(参考訳): 医用画像分割のためのマルチスケールプログレッシブテキストプロンプトネットワーク
- Authors: Xianjun Han, Qianqian Chen, Zhaoyang Xie, Xuejun Li, Hongyu Yang
- Abstract要約: 本稿では,先行知識としてプログレッシブテキストプロンプトを用いてセグメンテーションプロセスを導くことを提案する。
このモデルでは,データアノテーションのコストを低くして高品質な結果が得られる。
- 参考スコア(独自算出の注目度): 10.121625177837931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The accurate segmentation of medical images is a crucial step in obtaining
reliable morphological statistics. However, training a deep neural network for
this task requires a large amount of labeled data to ensure high-accuracy
results. To address this issue, we propose using progressive text prompts as
prior knowledge to guide the segmentation process. Our model consists of two
stages. In the first stage, we perform contrastive learning on natural images
to pretrain a powerful prior prompt encoder (PPE). This PPE leverages text
prior prompts to generate multimodality features. In the second stage, medical
image and text prior prompts are sent into the PPE inherited from the first
stage to achieve the downstream medical image segmentation task. A multiscale
feature fusion block (MSFF) combines the features from the PPE to produce
multiscale multimodality features. These two progressive features not only
bridge the semantic gap but also improve prediction accuracy. Finally, an
UpAttention block refines the predicted results by merging the image and text
features. This design provides a simple and accurate way to leverage multiscale
progressive text prior prompts for medical image segmentation. Compared with
using only images, our model achieves high-quality results with low data
annotation costs. Moreover, our model not only has excellent reliability and
validity on medical images but also performs well on natural images. The
experimental results on different image datasets demonstrate that our model is
effective and robust for image segmentation.
- Abstract(参考訳): 医用画像の正確なセグメンテーションは、信頼できる形態統計を得るための重要なステップである。
しかし、このタスクのためにディープニューラルネットワークをトレーニングするには、高い正確性を保証するために大量のラベル付きデータが必要である。
この問題に対処するために,先行知識としてプログレッシブテキストプロンプトを用いたセグメンテーションプロセスのガイドを提案する。
私たちのモデルは2つの段階からなる。
第1段階では,自然画像のコントラスト学習を行い,強力な事前プロンプトエンコーダ(ppe)を事前学習する。
PPEはテキスト先行プロンプトを利用してマルチモーダリティ機能を生成する。
第2段では、第1段から継承されたPPEに医療画像とテキスト先行プロンプトを送り、下流の医療画像セグメンテーションタスクを達成する。
マルチスケール機能融合ブロック(MSFF)は、PPEの機能を組み合わせてマルチスケール機能を生成する。
これら2つのプログレッシブな特徴は意味的ギャップを埋めるだけでなく、予測精度を向上させる。
最後に、UpAttentionブロックは画像とテキスト機能をマージすることで予測結果を洗練する。
この設計は、医療画像セグメンテーションのために、マルチスケールのプログレッシブテキストプリプロンプトを利用するためのシンプルで正確な方法を提供する。
画像のみを用いた場合と比較して,データアノテーションコストの低い高品質な結果が得られる。
また,本モデルは,医療画像の信頼性と妥当性に優れるだけでなく,自然画像においても良好に機能する。
異なる画像データセットに対する実験結果から,我々のモデルは画像セグメンテーションに有効で堅牢であることが示された。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - XLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training [29.02600107837688]
視覚と言語による事前学習は、画像とテキストのペアにおける対照的な学習を用いて、タスク間の効果的な伝達を実現する。
現在のモデルは、医療データの不足により、重要な病理的特徴を正確に再構築するのに苦労している。
本稿では,XLIP(Masked modelling for Medical Language-Image Pre-Training)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-28T17:38:21Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - MLIP: Medical Language-Image Pre-training with Masked Local
Representation Learning [20.33625985769796]
既存のコントラスト言語画像事前学習は、豊富な画像とテキストのペアをマッチングすることで、共同表現を学習することを目的としている。
本稿では,限られた画像テキストの医療データをより効率的に活用する医用言語-画像事前学習フレームワークを提案する。
評価の結果、MLIPはゼロ/フェーショット分類や少数ショット分割タスクにおいて、従来よりも大きなマージンで性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-01-03T07:54:13Z) - Self-Prompting Large Vision Models for Few-Shot Medical Image
Segmentation [14.135249795318591]
本稿では,医療ビジョン応用における自己プロンプトの新たな視点を提案する。
我々は、Segment Anything Modelの埋め込み空間を利用して、単純だが効果的な線形ピクセルワイド分類器を通して自身を誘導する。
複数のデータセットで競合する結果を得る。
論文 参考訳(メタデータ) (2023-08-15T08:20:07Z) - Unified Medical Image-Text-Label Contrastive Learning With Continuous
Prompt [3.218449686637963]
本稿では,連続的なプロンプトに基づく画像-テキスト-ラベルのコントラスト学習フレームワークを提案する。
我々は,Unified Medical Contrastive Learningフレームワークが下流のタスクに優れた性能を示すことを示す十分な実験を通して実証する。
論文 参考訳(メタデータ) (2023-07-12T05:19:10Z) - M$^{2}$SNet: Multi-scale in Multi-scale Subtraction Network for Medical
Image Segmentation [73.10707675345253]
医用画像から多様なセグメンテーションを仕上げるマルチスケールサブトラクションネットワーク(M$2$SNet)を提案する。
本手法は,4つの異なる医用画像セグメンテーションタスクの11つのデータセットに対して,異なる評価基準の下で,ほとんどの最先端手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2023-03-20T06:26:49Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。