論文の概要: ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of
Pneumothorax
- arxiv url: http://arxiv.org/abs/2303.01615v2
- Date: Fri, 15 Sep 2023 21:48:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 00:40:48.131098
- Title: ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of
Pneumothorax
- Title(参考訳): context net: 気胸のセグメンテーションのためのマルチモーダル視覚言語モデル
- Authors: Zachary Huemann, Xin Tie, Junjie Hu, Tyler J. Bradshaw
- Abstract要約: 胸部X線写真における気胸セグメンテーションのための新しい視覚言語モデルConTEXTual Netを提案する。
気胸3,196例のCANDID-PTXデータセットを用いて訓練を行った。
Diceのスコアは0.716$pm$0.016で、これは読者間のばらつきの程度に似ていた。
視覚のみのモデルと競合する視覚言語モデルの両方を上回った。
- 参考スコア(独自算出の注目度): 5.168314889999992
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Radiology narrative reports often describe characteristics of a patient's
disease, including its location, size, and shape. Motivated by the recent
success of multimodal learning, we hypothesized that this descriptive text
could guide medical image analysis algorithms. We proposed a novel
vision-language model, ConTEXTual Net, for the task of pneumothorax
segmentation on chest radiographs. ConTEXTual Net utilizes language features
extracted from corresponding free-form radiology reports using a pre-trained
language model. Cross-attention modules are designed to combine the
intermediate output of each vision encoder layer and the text embeddings
generated by the language model. ConTEXTual Net was trained on the CANDID-PTX
dataset consisting of 3,196 positive cases of pneumothorax with segmentation
annotations from 6 different physicians as well as clinical radiology reports.
Using cross-validation, ConTEXTual Net achieved a Dice score of
0.716$\pm$0.016, which was similar to the degree of inter-reader variability
(0.712$\pm$0.044) computed on a subset of the data. It outperformed both
vision-only models (ResNet50 U-Net: 0.677$\pm$0.015 and GLoRIA:
0.686$\pm$0.014) and a competing vision-language model (LAVT: 0.706$\pm$0.009).
Ablation studies confirmed that it was the text information that led to the
performance gains. Additionally, we show that certain augmentation methods
degraded ConTEXTual Net's segmentation performance by breaking the image-text
concordance. We also evaluated the effects of using different language models
and activation functions in the cross-attention module, highlighting the
efficacy of our chosen architectural design.
- Abstract(参考訳): 放射線学の物語は、その位置、大きさ、形状を含む患者の病気の特徴をしばしば記述している。
マルチモーダル学習の最近の成功に動機づけられ、この記述テキストは医用画像解析アルゴリズムを導くことができると仮定した。
胸部x線写真における気胸セグメンテーションの課題として,新しい視覚言語モデルcontextual netを提案した。
ConTEXTual Netは、事前訓練された言語モデルを用いて、対応する自由形放射線学レポートから抽出された言語特徴を利用する。
クロスアテンションモジュールは、各視覚エンコーダ層の中間出力と、言語モデルによって生成されたテキスト埋め込みを組み合わせるように設計されている。
ConTEXTual NetはCANDID-PTXデータセットを用いて6名の医師のセグメンテーションアノテーションと臨床放射線検査で3,196例の気胸を認めた。
クロスバリデーションを用いて、コンテクストネットは0.716$\pm$0.016というサイススコアを達成し、これはデータのサブセット上で計算されるリーダー間変動度(0.712$\pm$0.044)と類似した。
ビジョンのみのモデル(ResNet50 U-Net: 0.677$\pm$0.015 と GLoRIA: 0.686$\pm$0.014)と競合するビジョン言語モデル(LAVT: 0.706$\pm$0.009)の両方を上回った。
アブレーション研究は、パフォーマンス向上につながったのはテキスト情報であることを確認した。
さらに,画像テキストの一致を破ることで,ConTEXTual Netのセグメンテーション性能を劣化させる手法も示した。
また、クロスアテンションモジュールにおける異なる言語モデルとアクティベーション関数の使用の効果を評価し、選択したアーキテクチャ設計の有効性を強調した。
関連論文リスト
- Exploring Transfer Learning in Medical Image Segmentation using
Vision-Language Models [0.9324036842528547]
テキストガイダンスを利用した既存のセグメンテーションモデルは、主にオープンドメイン画像に基づいて訓練されている。
画像記述や画像から意味情報をキャプチャするためのマルチモーダル視覚言語モデルを提案する。
本研究では,複数のデータセットにまたがる既存の視覚言語モデルを評価し,オープンドメインから医療分野への移動可能性を評価する。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - Unified Medical Image-Text-Label Contrastive Learning With Continuous
Prompt [3.218449686637963]
本稿では,連続的なプロンプトに基づく画像-テキスト-ラベルのコントラスト学習フレームワークを提案する。
我々は,Unified Medical Contrastive Learningフレームワークが下流のタスクに優れた性能を示すことを示す十分な実験を通して実証する。
論文 参考訳(メタデータ) (2023-07-12T05:19:10Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - X-TRA: Improving Chest X-ray Tasks with Cross-Modal Retrieval
Augmentation [14.375693586801338]
胸部X線解析における複数のタスクにマルチモーダル検索拡張を適用した。
ビジョンと言語モダリティは、事前トレーニングされたCLIPモデルを使用して調整される。
非パラメトリック検索インデックスは最先端の検索レベルに達する。
論文 参考訳(メタデータ) (2023-02-22T12:53:33Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Variational Topic Inference for Chest X-Ray Report Generation [102.04931207504173]
医療画像のレポート生成は、作業負荷を減らし、臨床実習における診断を支援することを約束する。
近年の研究では、ディープラーニングモデルが自然画像のキャプションに成功していることが示された。
本稿では,自動レポート生成のための変分トピック推論を提案する。
論文 参考訳(メタデータ) (2021-07-15T13:34:38Z) - Longer Version for "Deep Context-Encoding Network for Retinal Image
Captioning" [21.558908631487405]
網膜画像の医療報告を自動的に生成する新しいコンテキスト駆動型符号化ネットワークを提案する。
提案するモデルは,主にマルチモーダル入力エンコーダと融合機能デコーダから構成される。
論文 参考訳(メタデータ) (2021-05-30T13:37:03Z) - Cascaded Robust Learning at Imperfect Labels for Chest X-ray
Segmentation [61.09321488002978]
不完全アノテーションを用いた胸部X線分割のための新しいカスケードロバスト学習フレームワークを提案する。
モデルは3つの独立したネットワークから成り,ピアネットワークから有用な情報を効果的に学習できる。
提案手法は,従来の手法と比較して,セグメント化タスクの精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-04-05T15:50:16Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。