論文の概要: PaliGemma-CXR: A Multi-task Multimodal Model for TB Chest X-ray Interpretation
- arxiv url: http://arxiv.org/abs/2503.00171v1
- Date: Fri, 28 Feb 2025 20:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:25.465479
- Title: PaliGemma-CXR: A Multi-task Multimodal Model for TB Chest X-ray Interpretation
- Title(参考訳): PaliGemma-CXR:TB胸部X線解釈のためのマルチタスクマルチモーダルモデル
- Authors: Denis Musinguzi, Andrew Katumba, Sudi Murindanyi,
- Abstract要約: 多くの国では、胸部X線を解釈できる放射線技師の不足に直面している。
従来のアプローチはタスク固有のモデルに依存しており、タスク間の相互依存を利用できない。
本稿では,TB診断,オブジェクト検出,セグメンテーション,レポート生成,VQAを行うマルチタスクマルチモーダルモデルPaliGemma-CXRを提案する。
- 参考スコア(独自算出の注目度): 0.3686808512438362
- License:
- Abstract: Tuberculosis (TB) is a infectious global health challenge. Chest X-rays are a standard method for TB screening, yet many countries face a critical shortage of radiologists capable of interpreting these images. Machine learning offers an alternative, as it can automate tasks such as disease diagnosis, and report generation. However, traditional approaches rely on task-specific models, which cannot utilize the interdependence between tasks. Building a multi-task model capable of performing multiple tasks poses additional challenges such as scarcity of multimodal data, dataset imbalance, and negative transfer. To address these challenges, we propose PaliGemma-CXR, a multi-task multimodal model capable of performing TB diagnosis, object detection, segmentation, report generation, and VQA. Starting with a dataset of chest X-ray images annotated with TB diagnosis labels and segmentation masks, we curated a multimodal dataset to support additional tasks. By finetuning PaliGemma on this dataset and sampling data using ratios of the inverse of the size of task datasets, we achieved the following results across all tasks: 90.32% accuracy on TB diagnosis and 98.95% on close-ended VQA, 41.3 BLEU score on report generation, and a mAP of 19.4 and 16.0 on object detection and segmentation, respectively. These results demonstrate that PaliGemma-CXR effectively leverages the interdependence between multiple image interpretation tasks to enhance performance.
- Abstract(参考訳): 結核(英: tuberculosis, TB)は、世界的な感染症である。
胸部X線はTBスクリーニングの標準的な方法であるが、多くの国ではこれらの画像を解釈できる放射線学者の不足に直面している。
機械学習は、疾患の診断やレポート生成などのタスクを自動化するため、代替手段を提供する。
しかし、従来のアプローチはタスク間の相互依存を利用できないタスク固有のモデルに依存している。
複数のタスクを実行するマルチタスクモデルの構築は、マルチモーダルデータの不足、データセットの不均衡、負の転送など、さらなる課題を引き起こす。
これらの課題に対処するために,TB診断,オブジェクト検出,セグメンテーション,レポート生成,VQAを行うマルチタスクマルチモーダルモデルPaliGemma-CXRを提案する。
TB診断ラベルとセグメンテーションマスクを付加した胸部X線画像のデータセットから始めると、追加タスクをサポートするためにマルチモーダルデータセットをキュレートした。
このデータセット上でPaliGemmaを微調整し、タスクデータセットの大きさの逆比を用いてデータをサンプリングすることにより、TB診断では90.32%の精度、レポート生成では41.3BLEUスコアでは98.95%、オブジェクト検出とセグメンテーションでは19.4と16.0のmAPをそれぞれ達成した。
これらの結果から,PaliGemma-CXRは複数の画像解釈タスク間の相互依存を効果的に活用し,性能を向上させることが示唆された。
関連論文リスト
- LTCXNet: Advancing Chest X-Ray Analysis with Solutions for Long-Tailed Multi-Label Classification and Fairness Challenges [4.351007758390175]
Pruned MIMIC-CXR-LTデータセットは、長い尾と多ラベルのデータシナリオを表現するように設計されている。
本稿では,ConvNeXtモデル,ML-Decoder,戦略的データ拡張を統合した新しいフレームワークであるLCCXNetを紹介する。
論文 参考訳(メタデータ) (2024-11-16T08:59:20Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - Complex Organ Mask Guided Radiology Report Generation [13.96983438709763]
我々は,複合臓器マスクガイド(COMG)レポート生成モデルを提案する。
融合過程において各臓器に対応する疾患の事前知識を活用し,疾患の同定フェーズを増強する。
2つの公開データセットの結果、COMGはSOTAモデルKiUTよりもBLEU@4スコアで11.4%と9.7%改善している。
論文 参考訳(メタデータ) (2023-11-04T05:34:24Z) - MUSCLE: Multi-task Self-supervised Continual Learning to Pre-train Deep
Models for X-ray Images of Multiple Body Parts [63.30352394004674]
MUSCLE(Multi-task Self-super-vised Continual Learning)は、医用画像処理タスクのための、新しい自己教師付き事前学習パイプラインである。
MUSCLEは、複数の身体部分から収集したX線を集約して表現学習を行い、よく設計された連続学習手順を採用する。
肺炎分類,骨格異常分類,肺セグメンテーション,結核(TB)検出など,9つの実世界のX線データセットを用いてMUSCLEを評価する。
論文 参考訳(メタデータ) (2023-10-03T12:19:19Z) - An Empirical Analysis for Zero-Shot Multi-Label Classification on
COVID-19 CT Scans and Uncurated Reports [0.5527944417831603]
パンデミックは、医学検査の増加により、放射線学の報告を含む、膨大な構造化されていないデータのリポジトリに繋がった。
新型コロナウイルスの自動診断に関するこれまでの研究は、CT(Computed tomography)スキャンと比較して精度が低いにもかかわらず、主にX線画像に焦点を当てていた。
本研究では,病院の非構造データを活用し,CTスキャンによって提供される細かな細部を利用して,対照的な視覚言語学習に基づくゼロショット多ラベル分類を行う。
論文 参考訳(メタデータ) (2023-09-04T17:58:01Z) - Revisiting Computer-Aided Tuberculosis Diagnosis [56.80999479735375]
結核(TB)は世界的な健康上の脅威であり、毎年何百万人もの死者を出している。
深層学習を用いたコンピュータ支援結核診断 (CTD) は有望であるが, 限られたトレーニングデータによって進行が妨げられている。
結核X線(TBX11K)データセットは11,200個の胸部X線(CXR)画像とそれに対応するTB領域のバウンディングボックスアノテーションを含む。
このデータセットは、高品質なCTDのための洗練された検出器のトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-07-06T08:27:48Z) - Instrumental Variable Learning for Chest X-ray Classification [52.68170685918908]
本稿では,素因果関係を排除し,正確な因果表現を得るための解釈可能な機器変数(IV)学習フレームワークを提案する。
提案手法の性能はMIMIC-CXR,NIH ChestX-ray 14,CheXpertデータセットを用いて実証した。
論文 参考訳(メタデータ) (2023-05-20T03:12:23Z) - Computer-aided Tuberculosis Diagnosis with Attribute Reasoning
Assistance [58.01014026139231]
新しい大規模結核(TB)胸部X線データセット(TBX-Att)を提案する。
属性情報を利用してTBの分類とローカライズを行うための属性支援弱教師付きフレームワークを構築した。
提案モデルはTBX-Attデータセットで評価され,今後の研究の確かなベースラインとして機能する。
論文 参考訳(メタデータ) (2022-07-01T07:50:35Z) - MMLN: Leveraging Domain Knowledge for Multimodal Diagnosis [10.133715767542386]
肺疾患診断のための知識駆動型およびデータ駆動型フレームワークを提案する。
本研究は, 臨床医学ガイドラインに従って診断規則を定式化し, テキストデータから規則の重みを学習する。
テキストと画像データからなるマルチモーダル融合は、肺疾患の限界確率を推定するために設計されている。
論文 参考訳(メタデータ) (2022-02-09T04:12:30Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Attention U-Net Based Adversarial Architectures for Chest X-ray Lung
Segmentation [0.0]
本稿では,診断パイプラインにおける基礎的,しかし困難な課題である肺分節に対する新しい深層学習手法を提案する。
本手法では, 逆批判モデルとともに, 最先端の完全畳み込みニューラルネットワークを用いる。
これは、患者プロファイルの異なる未確認データセットのCXRイメージによく当てはまり、JSRTデータセットの最終的なDSCRは97.5%に達した。
論文 参考訳(メタデータ) (2020-03-23T14:45:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。