論文の概要: Pretraining Vision-Language Model for Difference Visual Question Answering in Longitudinal Chest X-rays
- arxiv url: http://arxiv.org/abs/2402.08966v3
- Date: Fri, 13 Dec 2024 04:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:01:07.859949
- Title: Pretraining Vision-Language Model for Difference Visual Question Answering in Longitudinal Chest X-rays
- Title(参考訳): 縦型胸部X線における視覚的質問応答の事前学習モデル
- Authors: Yeongjae Cho, Taehee Kim, Heejun Shin, Sungzoon Cho, Dongmyung Shin,
- Abstract要約: 差分視覚質問応答(diff-VQA)は、画像間の差分に基づいて複雑な質問に答えることを必要とする課題である。
以前はdiff-VQAタスクのための特定のネットワークアーキテクチャの設計に重点が置かれていたが、モデルの性能を高める機会がなかった。
本稿では,diff-VQAタスクのための自然および縦部胸部X線データに基づいて,PLURALと呼ばれる新しいVLMを提案する。
- 参考スコア(独自算出の注目度): 6.351190845487287
- License:
- Abstract: Difference visual question answering (diff-VQA) is a challenging task that requires answering complex questions based on differences between a pair of images. This task is particularly important in reading chest X-ray images because radiologists often compare multiple images of the same patient taken at different times to track disease progression and changes in its severity in their clinical practice. However, previous works focused on designing specific network architectures for the diff-VQA task, missing opportunities to enhance the model's performance using a pretrained vision-language model (VLM). Here, we introduce a novel VLM called PLURAL, which is pretrained on natural and longitudinal chest X-ray data for the diff-VQA task. The model is developed using a step-by-step approach, starting with being pretrained on natural images and texts, followed by being trained using longitudinal chest X-ray data. The longitudinal data consist of pairs of X-ray images, along with question-answer sets and radiologist's reports that describe the changes in lung abnormalities and diseases over time. Our experimental results show that the PLURAL model outperforms state-of-the-art methods not only in diff-VQA for longitudinal X-rays but also in conventional VQA for a single X-ray image. Through extensive experiments, we demonstrate the effectiveness of the proposed VLM architecture and pretraining method in improving the model's performance.
- Abstract(参考訳): 差分視覚質問応答(diff-VQA)は、画像間の差分に基づいて複雑な質問に答えることを必要とする課題である。
この課題は胸部X線画像の読影において特に重要であり, 放射線科医は疾患の進行と重症度の変化を追跡するために, 異なる時期に撮影された同一患者の複数の画像と比較することが多い。
しかし、以前の研究はdiff-VQAタスクのための特定のネットワークアーキテクチャの設計に重点を置いており、事前訓練された視覚言語モデル(VLM)を使用してモデルの性能を向上させる機会を欠いていた。
本稿では,diff-VQAタスクのための自然および縦部胸部X線データに基づいて,PLURALと呼ばれる新しいVLMを提案する。
このモデルはステップバイステップのアプローチで開発され、まず自然画像やテキストで事前訓練され、続いて縦型胸部X線データを用いて訓練される。
縦方向のデータは、X線画像の対と、時間とともに肺の異常や疾患の変化を記述した質問・回答セットと放射線技師の報告で構成されている。
実験結果から,PLURALモデルは縦X線に対するdiff-VQAだけでなく,1枚のX線画像に対する従来のVQAにおいても,最先端の手法よりも優れていることがわかった。
広範にわたる実験により,提案するVLMアーキテクチャの有効性と,モデルの性能向上のための事前学習手法の有効性を実証した。
関連論文リスト
- MUSCLE: Multi-task Self-supervised Continual Learning to Pre-train Deep
Models for X-ray Images of Multiple Body Parts [63.30352394004674]
MUSCLE(Multi-task Self-super-vised Continual Learning)は、医用画像処理タスクのための、新しい自己教師付き事前学習パイプラインである。
MUSCLEは、複数の身体部分から収集したX線を集約して表現学習を行い、よく設計された連続学習手順を採用する。
肺炎分類,骨格異常分類,肺セグメンテーション,結核(TB)検出など,9つの実世界のX線データセットを用いてMUSCLEを評価する。
論文 参考訳(メタデータ) (2023-10-03T12:19:19Z) - Expert Knowledge-Aware Image Difference Graph Representation Learning for Difference-Aware Medical Visual Question Answering [45.058569118999436]
メインイメージとレファレンスイメージのペアが与えられたこのタスクは、両方の疾患に関するいくつかの疑問に答えようとしている。
我々は164,324対の主画像と参照画像から700,703対のQAペアを含むMIMIC-Diff-VQAという新しいデータセットを収集した。
論文 参考訳(メタデータ) (2023-07-22T05:34:18Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Artificial Intelligence for Automatic Detection and Classification
Disease on the X-Ray Images [0.0]
本研究では,Deep Learning Pre-trained RepVGGアルゴリズムを用いて肺疾患の迅速検出を行う。
我々は、人の肺の患部の自動ハイライト検出に人工知能技術を適用している。
論文 参考訳(メタデータ) (2022-11-14T03:51:12Z) - Improving Chest X-Ray Classification by RNN-based Patient Monitoring [0.34998703934432673]
我々は、診断に関する情報がCNNに基づく画像分類モデルを改善する方法について分析する。
追加の患者履歴情報に基づいてトレーニングされたモデルが、情報のないトレーニングを受けたモデルよりも有意なマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-10-28T11:47:15Z) - BERTHop: An Effective Vision-and-Language Model for Chest X-ray Disease
Diagnosis [42.917164607812886]
ヴィジュアル・アンド・ランゲージ(V&L)モデルは、画像とテキストを入力として取り、それら間の関連を捉えることを学ぶ。
BERTHopは、PixelHop++とVisualBERTをベースとしたトランスフォーマーベースのモデルで、2つのモダリティ間の関連をよりよく捉える。
論文 参考訳(メタデータ) (2021-08-10T21:51:25Z) - Cross-Modal Contrastive Learning for Abnormality Classification and
Localization in Chest X-rays with Radiomics using a Feedback Loop [63.81818077092879]
医療画像のためのエンドツーエンドのセミスーパーバイスドクロスモーダルコントラスト学習フレームワークを提案する。
まず、胸部X線を分類し、画像特徴を生成するために画像エンコーダを適用する。
放射能の特徴は別の専用エンコーダを通過し、同じ胸部x線から生成された画像の特徴の正のサンプルとして機能する。
論文 参考訳(メタデータ) (2021-04-11T09:16:29Z) - Cross Chest Graph for Disease Diagnosis with Structural Relational
Reasoning [2.7148274921314615]
X線画像のコンピュータ診断において位置病変は重要である。
一般に弱教師付き手法はX線像の特性を考慮できなかった。
自動病変検出の性能を向上させるCross-chest Graph (CCG)を提案する。
論文 参考訳(メタデータ) (2021-01-22T08:24:04Z) - Convolutional-LSTM for Multi-Image to Single Output Medical Prediction [55.41644538483948]
発展途上国の一般的なシナリオは、複数の理由からボリュームメタデータが失われることである。
ヒトの診断過程を模倣したマルチイメージから単一診断モデルを得ることが可能である。
論文 参考訳(メタデータ) (2020-10-20T04:30:09Z) - Learning Invariant Feature Representation to Improve Generalization
across Chest X-ray Datasets [55.06983249986729]
我々は、トレーニングデータと同じデータセットでテストすると、ディープラーニングモデルが、異なるソースからデータセットでテストされると、パフォーマンスが低下し始めることを示す。
対戦型トレーニング戦略を用いることで、ネットワークはソース不変表現を学習せざるを得ないことを示す。
論文 参考訳(メタデータ) (2020-08-04T07:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。