論文の概要: Knowledge-Augmented Language Models Interpreting Structured Chest X-Ray Findings
- arxiv url: http://arxiv.org/abs/2505.01711v1
- Date: Sat, 03 May 2025 06:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.238932
- Title: Knowledge-Augmented Language Models Interpreting Structured Chest X-Ray Findings
- Title(参考訳): 構造的胸部X線所見を解釈する知識強化言語モデル
- Authors: Alexander Davis, Rafael Souza, Jia-Hao Lim,
- Abstract要約: 本稿では,胸部X線解釈に強力なテキスト中心言語モデルを利用する新しいフレームワークであるCXR-TextInterを紹介する。
我々は,このLCM中心のアプローチを統合医療知識モジュールで強化し,臨床推論を強化する。
我々の研究は医療画像AIの代替パラダイムを検証し、高度なLLM機能を活用する可能性を示している。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated interpretation of chest X-rays (CXR) is a critical task with the potential to significantly improve clinical workflow and patient care. While recent advances in multimodal foundation models have shown promise, effectively leveraging the full power of large language models (LLMs) for this visual task remains an underexplored area. This paper introduces CXR-TextInter, a novel framework that repurposes powerful text-centric LLMs for CXR interpretation by operating solely on a rich, structured textual representation of the image content, generated by an upstream image analysis pipeline. We augment this LLM-centric approach with an integrated medical knowledge module to enhance clinical reasoning. To facilitate training and evaluation, we developed the MediInstruct-CXR dataset, containing structured image representations paired with diverse, clinically relevant instruction-response examples, and the CXR-ClinEval benchmark for comprehensive assessment across various interpretation tasks. Extensive experiments on CXR-ClinEval demonstrate that CXR-TextInter achieves state-of-the-art quantitative performance across pathology detection, report generation, and visual question answering, surpassing existing multimodal foundation models. Ablation studies confirm the critical contribution of the knowledge integration module. Furthermore, blinded human evaluation by board-certified radiologists shows a significant preference for the clinical quality of outputs generated by CXR-TextInter. Our work validates an alternative paradigm for medical image AI, showcasing the potential of harnessing advanced LLM capabilities when visual information is effectively structured and domain knowledge is integrated.
- Abstract(参考訳): 胸部X線の自動解釈(CXR)は,臨床ワークフローや患者のケアを大幅に改善する上で重要な課題である。
近年のマルチモーダル基盤モデルの進歩は有望なものとなっているが、この視覚的タスクに大規模言語モデル(LLM)のフルパワーを効果的に活用することは、まだ未解決の領域である。
本稿では,上流画像解析パイプラインが生成する画像コンテンツのリッチで構造化されたテキスト表現にのみ依存することで,CXRの解釈に強力なテキスト中心のLLMを再利用する新しいフレームワークであるCXR-TextInterを紹介する。
我々は,このLCM中心のアプローチを統合医療知識モジュールで強化し,臨床推論を強化する。
トレーニングと評価を容易にするために,多種多様で臨床的に関連のある命令応答の例と組み合わせた構造化画像表現と,様々な解釈タスクを網羅した総合的な評価のためのCXR-ClinEvalベンチマークを含むメディインストラクト-CXRデータセットを開発した。
CXR-ClinEvalに関する大規模な実験により、CXR-TextInterは、既存のマルチモーダル基盤モデルを上回る、病理検出、レポート生成、視覚的質問応答といった、最先端の定量的パフォーマンスを実現することを示した。
アブレーション研究は知識統合モジュールの重要な貢献を裏付けるものである。
さらに,CXR-TextInterによるアウトプットの臨床的品質を有意な評価で評価した。
我々の研究は、医用画像AIの代替パラダイムを検証し、視覚情報が効果的に構造化され、ドメイン知識が統合されたときに、高度なLLM能力を活用する可能性を示す。
関連論文リスト
- Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。
大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文 参考訳(メタデータ) (2025-04-09T23:33:35Z) - Fake It Till You Make It: Using Synthetic Data and Domain Knowledge for Improved Text-Based Learning for LGE Detection [11.532639713283226]
臨床報告からテキストを用いてLGE検出のモデルを訓練するために,ドメイン知識に根ざした戦略を用いる。
我々は、画像の向きを解剖学的に表現した方法で標準化し、空間的特徴とテキスト的特徴のより優れたアライメントを可能にする。
モデル全体の性能に対する各デザインコンポーネントの貢献を明らかにするためのアブレーション研究が実施されている。
論文 参考訳(メタデータ) (2025-02-18T15:30:48Z) - A Generative Framework for Bidirectional Image-Report Understanding in Chest Radiography [1.2289361708127877]
Multi-Stage Adaptive Vision-Language Tuning (MAViLT)は、視覚に基づく理解のためのマルチモーダル推論と生成を強化するために設計された新しいフレームワークである。
MAViLTは、臨床勾配重み付きトークン化プロセスと階層的な微調整戦略を取り入れており、正確な放射線学レポートを生成し、テキストから現実的なCXRを合成し、視覚に基づく臨床質問に答えることができる。
我々は、MIMIC-CXRとインディアナ大学CXRの2つのベンチマークデータセット上でMAViLTを評価し、すべてのタスクで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-02-09T15:02:57Z) - Clinical Evaluation of Medical Image Synthesis: A Case Study in Wireless Capsule Endoscopy [63.39037092484374]
人工知能(AI)に基づく合成データ生成は、臨床医学の届け方を変えることができる。
本研究は,無線カプセル内視鏡(WCE)画像を用いた炎症性腸疾患(IBD)の診断における概念実証による医療用SDGの臨床評価に焦点を当てた。
その結果、TIDE-IIは、最先端の生成モデルと比較して品質が向上し、臨床的に可塑性で、非常に現実的なWCE画像を生成することがわかった。
論文 参考訳(メタデータ) (2024-10-31T19:48:50Z) - Visual Prompt Engineering for Vision Language Models in Radiology [0.17183214167143138]
Contrastive Language-Image Pretraining (CLIPP) は、大規模な事前訓練を通じてゼロショット分類を可能にするソリューションを提供する。
ビジュアルマーカーはAUROC2013$を0.185まで改善し、分類性能を向上させる効果を強調した。
我々はコードと前処理パイプラインを公開し、医用画像の局所分類に関する今後の研究の基準点を提供する。
論文 参考訳(メタデータ) (2024-08-28T13:53:27Z) - MLVICX: Multi-Level Variance-Covariance Exploration for Chest X-ray Self-Supervised Representation Learning [6.4136876268620115]
MLVICXは、胸部X線画像からの埋め込みの形でリッチな表現をキャプチャするアプローチである。
自己教師付き胸部X線表現学習におけるMLVICXの性能を示す。
論文 参考訳(メタデータ) (2024-03-18T06:19:37Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - LLM-driven Multimodal Target Volume Contouring in Radiation Oncology [46.23891509553877]
大規模言語モデル(LLM)は、テキスト情報と画像の統合を容易にする。
LLM駆動型マルチモーダルAI,すなわちLLMSegを提案する。
提案モデルでは,従来のユニモーダルAIモデルと比較して,性能が著しく向上していることが実証された。
論文 参考訳(メタデータ) (2023-11-03T13:38:42Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。