論文の概要: ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of
Pneumothorax
- arxiv url: http://arxiv.org/abs/2303.01615v1
- Date: Thu, 2 Mar 2023 22:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 16:49:13.664708
- Title: ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of
Pneumothorax
- Title(参考訳): context net: 気胸のセグメンテーションのためのマルチモーダル視覚言語モデル
- Authors: Zachary Huemann, Junjie Hu, Tyler Bradshaw
- Abstract要約: 気胸セグメンテーションの課題に対する視覚言語モデルを構築した。
記述型言語は性能向上のためのセグメンテーションモデルに組み込むことができることを示す。
- 参考スコア(独自算出の注目度): 8.442412179333205
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Clinical imaging databases contain not only medical images but also text
reports generated by physicians. These narrative reports often describe the
location, size, and shape of the disease, but using descriptive text to guide
medical image analysis has been understudied. Vision-language models are
increasingly used for multimodal tasks like image generation, image captioning,
and visual question answering but have been scarcely used in medical imaging.
In this work, we develop a vision-language model for the task of pneumothorax
segmentation. Our model, ConTEXTual Net, detects and segments pneumothorax in
chest radiographs guided by free-form radiology reports. ConTEXTual Net
achieved a Dice score of 0.72 $\pm$ 0.02, which was similar to the level of
agreement between the primary physician annotator and the other physician
annotators (0.71 $\pm$ 0.04). ConTEXTual Net also outperformed a U-Net. We
demonstrate that descriptive language can be incorporated into a segmentation
model for improved performance. Through an ablative study, we show that it is
the text information that is responsible for the performance gains.
Additionally, we show that certain augmentation methods worsen ConTEXTual Net's
segmentation performance by breaking the image-text concordance. We propose a
set of augmentations that maintain this concordance and improve segmentation
training.
- Abstract(参考訳): 臨床画像データベースには医療画像だけでなく、医師が生成したテキストレポートも含まれている。
これらの物語は、しばしば病気の位置、大きさ、形状を記述しているが、医学的画像分析を導くための記述的テキストを用いて検討されている。
視覚言語モデルは、画像生成、画像キャプション、視覚的質問応答といったマルチモーダルなタスクにますます使われていますが、医療画像にはほとんど使われていません。
本研究では,気胸分離作業のための視覚言語モデルを開発した。
本モデルであるConTEXTual Netは, 胸部X線写真から気胸を検知し, 分画する。
ConTEXTual Net は Dice スコア 0.72$\pm$ 0.02 を達成し、これは主医師の注釈と他の医師の注釈との合意のレベル (0.71$\pm$ 0.04) に似ていた。
ConTEXTual NetもU-Netを上回った。
記述型言語は性能向上のためのセグメンテーションモデルに組み込むことができることを示す。
アブレーション研究を通じて,性能向上に責任を持つのはテキスト情報であることを示す。
さらに,画像テキストの一致を断ち切ることで,ConTEXTual Netのセグメンテーション性能が悪化することを示す。
我々は,この一致を維持し,セグメンテーション訓練を改善する一連の拡張を提案する。
関連論文リスト
- Application Of Vision-Language Models For Assessing Osteoarthritis
Disease Severity [0.43431539537721414]
変形性関節症(OA)は、正確な診断方法を必要とする世界的な健康上の課題である。
OAアセスメントのための既存のディープラーニングモデルは、単一タスクシステムである。
本研究では,X線画像とそれに対応するレポートを用いて,視覚言語処理モデルを用いてOA重大度を予測する。
論文 参考訳(メタデータ) (2024-01-12T02:43:58Z) - Spatially Covariant Image Registration with Text Prompts [10.339385546491284]
TextSCFは、空間的共変フィルタと視覚言語モデルで符号化されたテキスト解剖プロンプトを統合する新しい手法である。
TextSCFは計算効率を向上するが、登録精度の維持や改善も可能である。
そのパフォーマンスは、オブジェクト間脳MRIと腹部CTの登録タスクで厳格にテストされている。
論文 参考訳(メタデータ) (2023-11-27T08:00:53Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - CXR-LLAVA: a multimodal large language model for interpreting chest
X-ray images [3.0757789554622597]
本研究の目的は,胸部X線画像(CXR)を解釈するためのオープンソースのマルチモーダル大言語モデル(CXR-LLAVA)を開発することである。
トレーニングでは,592,580個のCXRを収集し,そのうち374,881個のX線写真異常のラベルが得られた。
主な病理所見に対する診断成績と,ヒト放射線技師による放射線学的報告の受容性について検討した。
論文 参考訳(メタデータ) (2023-10-22T06:22:37Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Event-based clinical findings extraction from radiology reports with
pre-trained language model [0.22940141855172028]
今回,臨床所見を付加した新しい放射線診断報告のコーパスを報告する。
金の標準コーパスには合計500点の注記CTレポートが含まれていた。
BERTを含む2つの最先端ディープラーニングアーキテクチャを用いて、トリガと引数のエンティティを抽出した。
論文 参考訳(メタデータ) (2021-12-27T05:03:10Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z) - A Comparison of Pre-trained Vision-and-Language Models for Multimodal
Representation Learning across Medical Images and Reports [5.074841553282345]
本研究では,MIMIC-CXRラジオグラフィーおよび関連レポートから,事前学習した4つのV+Lモデルを用いてマルチモーダル表現を学習する。
先駆的なCNN-RNNモデルと比較して、事前訓練されたV+Lモデルによって学習された共同埋め込みは、胸郭所見分類タスクの性能改善を示す。
論文 参考訳(メタデータ) (2020-09-03T09:00:47Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。