論文の概要: Knowledge-enhanced Visual-Language Pre-training on Chest Radiology
Images
- arxiv url: http://arxiv.org/abs/2302.14042v3
- Date: Wed, 14 Jun 2023 07:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 01:56:41.483459
- Title: Knowledge-enhanced Visual-Language Pre-training on Chest Radiology
Images
- Title(参考訳): 胸部x線画像における知識強化視覚言語前訓練
- Authors: Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Yanfeng Wang, Weidi Xie
- Abstract要約: 胸部X線と放射線検査を用いた視力監督前訓練のための知識強調型自動診断(KAD)を提案する。
我々は、4つの外部X線データセット上でKADを評価し、そのゼロショット性能が完全言語モデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 40.52487429030841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While multi-modal foundation models pre-trained on large-scale data have been
successful in natural language understanding and vision recognition, their use
in medical domains is still limited due to the fine-grained nature of medical
tasks and the high demand for domain knowledge. To address this challenge, we
propose a novel approach called Knowledge-enhanced Auto Diagnosis (KAD) which
leverages existing medical domain knowledge to guide vision-language
pre-training using paired chest X-rays and radiology reports. We evaluate KAD
on {four} external X-ray datasets and demonstrate that its zero-shot
performance is not only comparable to that of fully-supervised models, but also
superior to the average of three expert radiologists for three (out of five)
pathologies with statistical significance. Moreover, when few-shot annotation
is available, KAD outperforms all existing approaches in fine-tuning settings,
demonstrating its potential for application in different clinical scenarios.
- Abstract(参考訳): 大規模データに事前学習されたマルチモーダル基礎モデルは自然言語理解や視覚認識に成功しているが、医療領域におけるそれらの使用は、医学的タスクのきめ細かい性質とドメイン知識の高需要のために制限されている。
この課題に対処するために,既存の医学領域の知識を活用して,胸部X線と放射線学のレポートを用いた視覚言語事前学習を指導する,知識強調型自動診断(KAD)という新しいアプローチを提案する。
我々は, {four} 外部X線データセット上でKADを評価し,そのゼロショット性能が完全教師付きモデルに匹敵するだけでなく,統計学的に有意な3種類の専門放射線技師の平均よりも優れていることを示した。
さらに、少数ショットのアノテーションが利用できる場合、KADは、微調整設定で既存のすべてのアプローチより優れており、異なる臨床シナリオにおける適用の可能性を示している。
関連論文リスト
- D-Rax: Domain-specific Radiologic assistant leveraging multi-modal data and eXpert model predictions [8.874099055563228]
ドメイン固有の対話型無線支援ツールD-Raxを提案する。
我々は胸部X線(CXR)画像の会話解析を強化し,放射線学的報告を支援する。
オープン・エンド・会話とクローズド・会話の双方において,反応の統計的に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-07-02T18:43:10Z) - M-QALM: A Benchmark to Assess Clinical Reading Comprehension and Knowledge Recall in Large Language Models via Question Answering [14.198330378235632]
我々は,3つのジェネラリストと3つの専門的なバイオメディカルサブドメインにおいて,22のデータセットに関する大規模な実験研究を行うために,複数選択と抽象質問応答を用いた。
15個のLLMの性能の多面的解析により、リコールや理解の向上につながる命令チューニングなどの成功要因が明らかになった。
最近提案されたドメイン適応モデルには十分な知識が欠如している可能性があるが、収集した医療知識データセットを直接微調整することは、奨励的な結果を示している。
我々は、必要な知識を単に思い出し、提示された知識と統合するモデルの能力の間に大きなギャップがあることを明らかにする、スキル指向手動エラー解析で定量的結果を補完する。
論文 参考訳(メタデータ) (2024-06-06T02:43:21Z) - Advancing human-centric AI for robust X-ray analysis through holistic self-supervised learning [33.9544297423474]
873kの胸部X線で自己監督によって訓練された大型ビジュアルエンコーダであるRayDinoについて紹介する。
我々はレイディーノと過去の9つの放射線学課題における最先端モデルを比較し、分類と密分化からテキスト生成までについて述べる。
以上の結果から,患者中心型AIがX線の臨床・解釈に有用であることが示唆された。
論文 参考訳(メタデータ) (2024-05-02T16:59:10Z) - DeViDe: Faceted medical knowledge for improved medical vision-language pre-training [1.6567372257085946]
胸部X線に対する視覚言語による事前訓練は、主にペアのX線写真とラジオグラフィーレポートを活用することで大きな進歩を遂げた。
オープンウェブからの無線画像記述を利用するトランスフォーマーベースのDeViDeを提案する。
DeViDeは知識強化された視覚言語アライメントの3つの重要な特徴を取り入れている。
ゼロショット設定では、DeViDeは外部データセットの完全な教師付きモデルと互換性があり、3つの大規模データセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-04-04T17:40:06Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Towards Generalist Foundation Model for Radiology by Leveraging
Web-scale 2D&3D Medical Data [66.9359934608229]
この研究はRadFMと呼ばれるRadlogy Foundation Modelの開発を開始することを目的としている。
われわれの知る限りでは、これは2Dスキャンと3Dスキャンによる、最初の大規模で高品質な医療用ビジュアル言語データセットである。
本稿では,モダリティ認識,疾患診断,視覚的質問応答,レポート生成,合理的診断の5つのタスクからなる新しい評価ベンチマークRadBenchを提案する。
論文 参考訳(メタデータ) (2023-08-04T17:00:38Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training in
Radiology [40.52487429030841]
医用医用視覚言語事前訓練を専門知識と組み合わせて行うことを検討する。
まず, 生の報告を直接処理する既存の作業とは異なり, 医療関連情報を抽出するために, 新規な三重項抽出モジュールを採用する。
第2に,医療分野における豊富な知識を活用するために,知識ベースを問合せすることで,エンティティ翻訳を伴う新しい三重項符号化モジュールを提案する。
第3に、トランスフォーマーを用いた融合モデルを用いて、画像パッチレベルでの実体記述と視覚信号との空間的整合を図り、診断を可能にすることを提案する。
論文 参考訳(メタデータ) (2023-01-05T18:55:09Z) - Exploring and Distilling Posterior and Prior Knowledge for Radiology
Report Generation [55.00308939833555]
PPKEDには、Posterior Knowledge Explorer (PoKE), Prior Knowledge Explorer (PrKE), Multi-domain Knowledge Distiller (MKD)の3つのモジュールが含まれている。
PoKEは後部知識を探求し、視覚データのバイアスを軽減するために明確な異常な視覚領域を提供する。
PrKEは、以前の医学知識グラフ(医学知識)と以前の放射線学レポート(作業経験)から以前の知識を探り、テキストデータのバイアスを軽減する。
論文 参考訳(メタデータ) (2021-06-13T11:10:02Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。