論文の概要: ChestGPT: Integrating Large Language Models and Vision Transformers for Disease Detection and Localization in Chest X-Rays
- arxiv url: http://arxiv.org/abs/2507.03739v1
- Date: Fri, 04 Jul 2025 17:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.861149
- Title: ChestGPT: Integrating Large Language Models and Vision Transformers for Disease Detection and Localization in Chest X-Rays
- Title(参考訳): ChestGPT:胸部X線における疾患検出と局所化のための大規模言語モデルと視覚変換器の統合
- Authors: Shehroz S. Khan, Petar Przulj, Ahmed Ashraf, Ali Abedi,
- Abstract要約: 視覚変換器(ViT)は、視覚データをLLMが効率的に処理できるフォーマットに変換するのに有効であることが証明されている。
本稿では,EVA ViTとLlama 2 LLMを統合するフレームワークであるChestGPTについて紹介する。
提案手法は, F1スコア0.76のVinDr-CXRデータセットを用いて, 強いグローバルな疾患分類性能を達成した。
- 参考スコア(独自算出の注目度): 1.9827390755712084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The global demand for radiologists is increasing rapidly due to a growing reliance on medical imaging services, while the supply of radiologists is not keeping pace. Advances in computer vision and image processing technologies present significant potential to address this gap by enhancing radiologists' capabilities and improving diagnostic accuracy. Large language models (LLMs), particularly generative pre-trained transformers (GPTs), have become the primary approach for understanding and generating textual data. In parallel, vision transformers (ViTs) have proven effective at converting visual data into a format that LLMs can process efficiently. In this paper, we present ChestGPT, a deep-learning framework that integrates the EVA ViT with the Llama 2 LLM to classify diseases and localize regions of interest in chest X-ray images. The ViT converts X-ray images into tokens, which are then fed, together with engineered prompts, into the LLM, enabling joint classification and localization of diseases. This approach incorporates transfer learning techniques to enhance both explainability and performance. The proposed method achieved strong global disease classification performance on the VinDr-CXR dataset, with an F1 score of 0.76, and successfully localized pathologies by generating bounding boxes around the regions of interest. We also outline several task-specific prompts, in addition to general-purpose prompts, for scenarios radiologists might encounter. Overall, this framework offers an assistive tool that can lighten radiologists' workload by providing preliminary findings and regions of interest to facilitate their diagnostic process.
- Abstract(参考訳): 放射線医の需要は、医療画像サービスへの依存が高まり、放射線医の供給はペースを保っていないため、急速に増加している。
コンピュータビジョンと画像処理技術の進歩は、放射線医の能力を高め、診断精度を向上させることで、このギャップに対処する大きな可能性を示している。
大規模言語モデル(LLM)、特に生成事前学習型トランスフォーマー(GPT)は、テキストデータの理解と生成の主要なアプローチとなっている。
並行して、視覚変換器(ViT)は、視覚データをLLMが効率的に処理できるフォーマットに変換するのに有効であることが証明されている。
本稿では,EVA ViTとLlama 2 LLMを統合した深層学習フレームワークであるChestGPTを紹介し,疾患の分類と胸部X線画像への関心領域のローカライズを行う。
ViTはX線画像をトークンに変換し、それをエンジニアリングされたプロンプトとともにLSMに変換し、病気の分類と局所化を可能にする。
このアプローチは、説明可能性と性能の両方を高めるために、トランスファーラーニング手法を取り入れている。
提案手法は,F1スコア0.76のVinDr-CXRデータセット上で,強いグローバルな疾患分類性能を達成し,関心領域の周囲にバウンディングボックスを発生させることで,局所化病理学を成功させた。
また,放射線技師が遭遇する可能性のあるシナリオについて,汎用的なプロンプトに加えて,タスク固有のプロンプトについても概説した。
全体として、このフレームワークは放射線科医の作業負荷を軽減し、診断プロセスを促進するための予備的な発見と関心領域を提供することによって支援ツールを提供する。
関連論文リスト
- Gla-AI4BioMed at RRG24: Visual Instruction-tuned Adaptation for Radiology Report Generation [21.772106685777995]
胸部X線から放射線学レポートを生成するために,放射線学に焦点を当てた視覚言語モデルを提案する。
我々のモデルは、画像エンコーダとVicuna-7Bアーキテクチャに基づく微調整LDMを組み合わせることで、顕著な精度で放射線学レポートの異なるセクションを生成することができる。
論文 参考訳(メタデータ) (2024-12-06T11:14:03Z) - Visual Prompt Engineering for Vision Language Models in Radiology [0.17183214167143138]
Contrastive Language-Image Pretraining (CLIP)は,マルチモーダルな大規模事前訓練によるゼロショット分類を可能にすることで,有望なソリューションを提供する。
CLIPは、グローバルな画像コンテンツを効果的にキャプチャするが、ラジオロジーは、解釈可能性と診断精度の両方を高めるために、特定の病理領域により局所的な焦点をあてる必要がある。
視覚的手がかりをゼロショット分類に組み込む可能性を探り、矢印、バウンディングボックス、円などの視覚的マーカーを直接放射線画像に埋め込んでモデル注意を誘導する。
論文 参考訳(メタデータ) (2024-08-28T13:53:27Z) - Multi-modality Regional Alignment Network for Covid X-Ray Survival Prediction and Report Generation [36.343753593390254]
本研究は,放射線学報告の生成と生存予測のための説明可能なモデルであるマルチモーダル地域アライメントネットワーク(MRANet)を提案する。
MRANetは、領域固有の記述を視覚的に根拠として、完了戦略を備えた堅牢な解剖学的領域を提供する。
横断LDMアライメントは、画像からテキストへの転送プロセスを強化するために使用され、その結果、臨床詳細に富んだ文と、放射線医の説明可能性が改善された。
論文 参考訳(メタデータ) (2024-05-23T02:41:08Z) - Enhancing Human-Computer Interaction in Chest X-ray Analysis using Vision and Language Model with Eye Gaze Patterns [7.6599164274971026]
VLM(Vision-Language Models)は、視線データとテキストプロンプトを併用することで、放射線技師の注意を喚起する。
眼球データから生成した熱マップを医療画像にオーバーレイし、放射線技師の集中した領域をハイライトする。
その結果,視線情報の挿入は胸部X線解析の精度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-03T00:09:05Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Self adaptive global-local feature enhancement for radiology report
generation [10.958641951927817]
グローバル・解剖学的領域の特徴を動的に融合して多粒性放射線学レポートを生成する新しいフレームワーク AGFNet を提案する。
まず,入力胸部X線(CXR)の解剖学的特徴と大域的特徴を抽出する。
そして,領域の特徴とグローバルな特徴を入力として,提案した自己適応型核融合ゲートモジュールは動的に多粒性情報を融合することができる。
最後に、キャプション生成装置は、多粒性特徴により放射線学レポートを生成する。
論文 参考訳(メタデータ) (2022-11-21T11:50:42Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Radiomics-Guided Global-Local Transformer for Weakly Supervised
Pathology Localization in Chest X-Rays [65.88435151891369]
Radiomics-Guided Transformer (RGT)は、テキストトグロバル画像情報と、テキストトグロバル情報とを融合する。
RGTは、画像トランスフォーマーブランチ、放射能トランスフォーマーブランチ、および画像と放射線情報を集約する融合層から構成される。
論文 参考訳(メタデータ) (2022-07-10T06:32:56Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。