論文の概要: Vision-Language Models for Acute Tuberculosis Diagnosis: A Multimodal Approach Combining Imaging and Clinical Data
- arxiv url: http://arxiv.org/abs/2503.14538v1
- Date: Mon, 17 Mar 2025 14:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:26:12.815380
- Title: Vision-Language Models for Acute Tuberculosis Diagnosis: A Multimodal Approach Combining Imaging and Clinical Data
- Title(参考訳): 急性結核診断のためのビジョン・ランゲージモデル:画像と臨床データを組み合わせたマルチモーダルアプローチ
- Authors: Ananya Ganapthy, Praveen Shastry, Naveen Kumarasami, Anandakumar D, Keerthana R, Mounigasri M, Varshinipriya M, Kishore Prasath Venkatesh, Bargava Subramanian, Kalyan Sivasailam,
- Abstract要約: 本研究では,SIGLIPとGemma-3bアーキテクチャを併用したVLM(Vision-Language Model)を提案する。
VLMは胸部X線からの視覚データを臨床コンテキストと組み合わせて、詳細なコンテキスト認識診断レポートを生成する。
結石,空洞,結節などの急性TBの病態は,高い精度とリコールで検出された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Background: This study introduces a Vision-Language Model (VLM) leveraging SIGLIP and Gemma-3b architectures for automated acute tuberculosis (TB) screening. By integrating chest X-ray images and clinical notes, the model aims to enhance diagnostic accuracy and efficiency, particularly in resource-limited settings. Methods: The VLM combines visual data from chest X-rays with clinical context to generate detailed, context-aware diagnostic reports. The architecture employs SIGLIP for visual encoding and Gemma-3b for decoding, ensuring effective representation of acute TB-specific pathologies and clinical insights. Results: Key acute TB pathologies, including consolidation, cavities, and nodules, were detected with high precision (97percent) and recall (96percent). The model demonstrated strong spatial localization capabilities and robustness in distinguishing TB-positive cases, making it a reliable tool for acute TB diagnosis. Conclusion: The multimodal capability of the VLM reduces reliance on radiologists, providing a scalable solution for acute TB screening. Future work will focus on improving the detection of subtle pathologies and addressing dataset biases to enhance its generalizability and application in diverse global healthcare settings.
- Abstract(参考訳): 背景: 本研究では, SIGLIP と Gemma-3b アーキテクチャを併用した視覚言語モデル (VLM) を導入し, 自動結核検診を行った。
胸部X線画像と臨床ノートを統合することで、特にリソース制限設定において診断精度と効率を向上させることを目的としている。
方法: VLMは胸部X線からの視覚データを臨床コンテキストと組み合わせ、詳細なコンテキスト認識診断レポートを生成する。
このアーキテクチャは、ビジュアルエンコーディングにSIGLIP、デコードにGemma-3bを使用し、急性TB特異的な病態と臨床所見の効果的な表現を確実にする。
結果: コンソリデーション, 空洞, 結節などの急性TBの病態は, 高精度 (97%) とリコール (96%) で検出された。
本モデルでは, TB陽性症例の鑑別に強い空間的局所化能とロバスト性を示し, 急性TB診断の信頼性を示した。
結論: VLMのマルチモーダル能力は、放射線技師への依存を減らし、急性TBスクリーニングのためのスケーラブルなソリューションを提供する。
今後の研究は、微妙な病理の検出の改善とデータセットバイアスへの対処に集中し、さまざまなグローバルな医療環境におけるその一般化性と応用を強化する。
関連論文リスト
- Efficient and Comprehensive Feature Extraction in Large Vision-Language Model for Clinical Pathology Analysis [34.199766079609795]
病理診断は疾患の特徴の決定、治療指導、予後評価に不可欠である。
従来の純粋な視覚モデルは、冗長な特徴抽出の課題に直面している。
既存の視覚言語モデル(LVLM)は、入力解像度の制約によって制限され、その効率と精度を損なう。
課題誘導型機能拡張と課題誘導型詳細機能補完の2つの革新的戦略を提案する。
論文 参考訳(メタデータ) (2024-12-12T18:07:23Z) - MvKeTR: Chest CT Report Generation with Multi-View Perception and Knowledge Enhancement [1.4680538148112467]
マルチビュー認識知識強化トランス(MvKeTR)
複数の解剖学的視点から診断情報を効果的に合成する。
Cross-Modal Knowledge Enhancer (CMKE) はクエリボリュームに基づいて最もよく似たレポートを検索する。
論文 参考訳(メタデータ) (2024-11-27T12:58:23Z) - Enhancing Osteoporosis Detection: An Explainable Multi-Modal Learning Framework with Feature Fusion and Variable Clustering [6.196283036344105]
骨粗しょう症は、特に高齢者の骨折リスクを高める一般的な病態である。
本研究は,臨床および画像データを統合し,診断精度とモデル解釈性を向上させる新しい多モード学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-01T13:58:15Z) - Multiscale Latent Diffusion Model for Enhanced Feature Extraction from Medical Images [5.395912799904941]
CTスキャナーモデルと取得プロトコルのバリエーションは、抽出した放射能特性に有意な変動をもたらす。
LTDiff++は医療画像の特徴抽出を強化するために設計されたマルチスケール潜在拡散モデルである。
論文 参考訳(メタデータ) (2024-10-05T02:13:57Z) - Super-resolution of biomedical volumes with 2D supervision [84.5255884646906]
超解像のための仮設スライス拡散は、生物学的標本のすべての空間次元にわたるデータ生成分布の固有同値性を利用する。
我々は,高解像度2次元画像の高速取得を特徴とするSliceRの組織学的刺激(SRH)への応用に着目する。
論文 参考訳(メタデータ) (2024-04-15T02:41:55Z) - Revisiting Computer-Aided Tuberculosis Diagnosis [56.80999479735375]
結核(TB)は世界的な健康上の脅威であり、毎年何百万人もの死者を出している。
深層学習を用いたコンピュータ支援結核診断 (CTD) は有望であるが, 限られたトレーニングデータによって進行が妨げられている。
結核X線(TBX11K)データセットは11,200個の胸部X線(CXR)画像とそれに対応するTB領域のバウンディングボックスアノテーションを含む。
このデータセットは、高品質なCTDのための洗練された検出器のトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-07-06T08:27:48Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Diagnosis of Coronavirus Disease 2019 (COVID-19) with Structured Latent
Multi-View Representation Learning [48.05232274463484]
最近、コロナウイルス病2019(COVID-19)の流行は世界中で急速に広まっている。
多くの患者と医師の重労働のために、機械学習アルゴリズムによるコンピュータ支援診断が緊急に必要である。
本研究では,CT画像から抽出した一連の特徴を用いて,COVID-19の診断を行うことを提案する。
論文 参考訳(メタデータ) (2020-05-06T15:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。