論文の概要: Advancing Chronic Tuberculosis Diagnostics Using Vision-Language Models: A Multi modal Framework for Precision Analysis
- arxiv url: http://arxiv.org/abs/2503.14536v1
- Date: Mon, 17 Mar 2025 13:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:26:13.600691
- Title: Advancing Chronic Tuberculosis Diagnostics Using Vision-Language Models: A Multi modal Framework for Precision Analysis
- Title(参考訳): 視覚言語モデルを用いた慢性結核診断の高度化:精度解析のための多段階的枠組み
- Authors: Praveen Shastry, Sowmya Chowdary Muthulur, Naveen Kumarasami, Anandakumar D, Mounigasri M, Keerthana R, Kishore Prasath Venkatesh, Bargava Subramanian, Kalyan Sivasailam, Revathi Ezhumalai, Abitha Marimuthu,
- Abstract要約: Vision-Language Model (VLM)はヴィジュアルエンコーディングにViT(Vision Transformer)、臨床コンテキストを処理するためにトランスフォーマーベースのテキストエンコーダを使用する。
クロスモーダルアテンション機構は,画像の特徴をテキスト情報と整合させ,Gemma-3bデコーダは包括的診断レポートを生成する。
モデルは、重要な慢性TBの病態を検出するための高精度(44%)とリコール(44%)を示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Background This study proposes a Vision-Language Model (VLM) leveraging the SIGLIP encoder and Gemma-3b transformer decoder to enhance automated chronic tuberculosis (TB) screening. By integrating chest X-ray images with clinical data, the model addresses the challenges of manual interpretation, improving diagnostic consistency and accessibility, particularly in resource-constrained settings. Methods The VLM architecture combines a Vision Transformer (ViT) for visual encoding and a transformer-based text encoder to process clinical context, such as patient histories and treatment records. Cross-modal attention mechanisms align radiographic features with textual information, while the Gemma-3b decoder generates comprehensive diagnostic reports. The model was pre-trained on 5 million paired medical images and texts and fine-tuned using 100,000 chronic TB-specific chest X-rays. Results The model demonstrated high precision (94 percent) and recall (94 percent) for detecting key chronic TB pathologies, including fibrosis, calcified granulomas, and bronchiectasis. Area Under the Curve (AUC) scores exceeded 0.93, and Intersection over Union (IoU) values were above 0.91, validating its effectiveness in detecting and localizing TB-related abnormalities. Conclusion The VLM offers a robust and scalable solution for automated chronic TB diagnosis, integrating radiographic and clinical data to deliver actionable and context-aware insights. Future work will address subtle pathologies and dataset biases to enhance the model's generalizability, ensuring equitable performance across diverse populations and healthcare settings.
- Abstract(参考訳): そこで本研究では,SIGLIPエンコーダとGemma-3bトランスフォーマーデコーダを併用したVLM(Vision-Language Model)を提案する。
胸部X線画像と臨床データを統合することで、特に資源制約のある環境では、手動による解釈の課題に対処し、診断の一貫性とアクセシビリティを向上させる。
方法 VLMアーキテクチャは、ヴィジュアルエンコーディングのためのビジョントランスフォーマー(ViT)と、患者履歴や治療記録などの臨床コンテキストを処理するトランスフォーマーベースのテキストエンコーダを組み合わせる。
クロスモーダルアテンション機構は,画像の特徴をテキスト情報と整合させ,Gemma-3bデコーダは包括的診断レポートを生成する。
このモデルは500万枚の医療画像とテキストで事前訓練され、10万個の慢性TB特異的胸部X線を使って微調整された。
その結果, 線維症, 石灰化肉芽腫, 気管支狭窄など, 重要な慢性TBの病態を検出するための高精度(44%)とリコール(44%)が得られた。
AUC(Area Under the Curve)のスコアは0.93以上、IoU(Intersection over Union)の値は0.91以上であり、TB関連異常の検出と局所化の有効性が検証された。
結論 VLMは、自動慢性TB診断のための堅牢でスケーラブルなソリューションを提供する。
今後の研究は、微妙な病理学とデータセットバイアスに対処し、モデルの一般化性を高め、多様な人口と医療環境の公平なパフォーマンスを確保する。
関連論文リスト
- An Intrinsically Explainable Approach to Detecting Vertebral Compression Fractures in CT Scans via Neurosymbolic Modeling [9.108675519106319]
脊椎圧迫骨折(VCFs)は骨粗しょう症の一般的な原因であり、潜在的に重篤な結果である。
機会論的診断のような高度なシナリオでは、モデル解釈可能性がAIレコメンデーションの採用の鍵となる。
我々はCTボリュームにおけるVCF検出のためのニューロシンボリックアプローチを導入する。
論文 参考訳(メタデータ) (2024-12-23T04:01:44Z) - Bridging the Diagnostic Divide: Classical Computer Vision and Advanced AI methods for distinguishing ITB and CD through CTE Scans [2.900410045439515]
放射線医の間では, 内皮-皮下脂肪比は, ITBとCDの鑑別における代用バイオマーカーとして認識されている。
本稿では,この比率計算を自動化するために,皮下脂肪の自動分離のための新しい2次元画像コンピュータビジョンアルゴリズムを提案する。
ITB, CD, 正常患者のサンプルを用いて, CTEスキャンのデータセットを用いてResNet10モデルを訓練し, 75%の精度を得た。
論文 参考訳(メタデータ) (2024-10-23T17:05:27Z) - Multiscale Latent Diffusion Model for Enhanced Feature Extraction from Medical Images [5.395912799904941]
CTスキャナーモデルと取得プロトコルのバリエーションは、抽出した放射能特性に有意な変動をもたらす。
LTDiff++は医療画像の特徴抽出を強化するために設計されたマルチスケール潜在拡散モデルである。
論文 参考訳(メタデータ) (2024-10-05T02:13:57Z) - Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development [59.74920439478643]
本稿では,多様なERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈付けする。
ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。
本稿では,ASTR (Adaptive Sparse-context TRansformer) という大腸癌セグメンテーションのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:04:42Z) - Spatial-aware Transformer-GRU Framework for Enhanced Glaucoma Diagnosis
from 3D OCT Imaging [1.8416014644193066]
本稿では3次元光コヒーレンス・トモグラフィー(OCT)画像の診断値を利用した新しいディープラーニングフレームワークを提案する。
我々は、リッチスライスな特徴抽出のための網膜データに事前学習された視覚変換器と、スライス間空間依存性をキャプチャするための双方向Gated Recurrent Unitを統合する。
大規模データセットに対する実験結果から,提案手法の最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-08T22:25:15Z) - Revisiting Computer-Aided Tuberculosis Diagnosis [56.80999479735375]
結核(TB)は世界的な健康上の脅威であり、毎年何百万人もの死者を出している。
深層学習を用いたコンピュータ支援結核診断 (CTD) は有望であるが, 限られたトレーニングデータによって進行が妨げられている。
結核X線(TBX11K)データセットは11,200個の胸部X線(CXR)画像とそれに対応するTB領域のバウンディングボックスアノテーションを含む。
このデータセットは、高品質なCTDのための洗練された検出器のトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-07-06T08:27:48Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。