論文の概要: Multi-modal vision-language model for generalizable annotation-free pathological lesions localization and clinical diagnosis
- arxiv url: http://arxiv.org/abs/2401.02044v3
- Date: Fri, 19 Apr 2024 14:02:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 19:47:30.122874
- Title: Multi-modal vision-language model for generalizable annotation-free pathological lesions localization and clinical diagnosis
- Title(参考訳): 一般化可能なアノテーションのない病理病変の局在と臨床診断のためのマルチモーダル視覚言語モデル
- Authors: Hao Yang, Hong-Yu Zhou, Zhihuan Li, Yuanxu Gao, Cheng Li, Weijian Huang, Jiarun Liu, Hairong Zheng, Kang Zhang, Shanshan Wang,
- Abstract要約: 視覚言語による事前学習モデルを提案する。
Free Pathological Localization (AFLOC)
AFLocのコアとなる強みは、多段階のセマンティック構造に基づくコントラスト学習にある。
- 参考スコア(独自算出の注目度): 18.958171123895866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Defining pathologies automatically from medical images aids the understanding of the emergence and progression of diseases, and such an ability is crucial in clinical diagnostics. However, existing deep learning models heavily rely on expert annotations and lack generalization capabilities in open clinical environments. In this study, we present a generalizable vision-language pre-training model for Annotation-Free pathological lesions Localization (AFLoc). The core strength of AFLoc lies in its extensive multi-level semantic structure-based contrastive learning, which comprehensively aligns multi-granularity medical concepts from reports with abundant image features, to adapt to the diverse expressions of pathologies and unseen pathologies without the reliance on image annotations from experts. We demonstrate the proof of concept on CXR images, with extensive experimental validation across 4 distinct external datasets, encompassing 11 types of chest pathologies. The results demonstrate that AFLoc surpasses state-of-the-art methods in pathological lesions localization and disease classification, and even outperforms the human benchmark in locating 5 different pathologies. Additionally, we further verify its generalization ability by applying it to retinal fundus images. Our approach showcases AFoc versatilities and underscores its suitability for clinical diagnoses in complex clinical environments.
- Abstract(参考訳): 医用画像から病理を自動的に定義することは、疾患の発生と進展の理解に役立ち、臨床診断においてそのような能力は不可欠である。
しかし、既存のディープラーニングモデルは専門家のアノテーションに大きく依存しており、オープンな臨床環境での一般化機能が欠如している。
本研究では,AFLOC (Anotation-Free pathological lesions Localization) に対する視覚言語事前学習モデルを提案する。
AFLocのコアとなる強みは、多段階のセマンティックな構造に基づくコントラスト学習であり、多彩な画像特徴を持つレポートから多彩な医療概念を包括的に整合させ、専門家のイメージアノテーションに頼らずに、多彩な病理と見えない病理の表現に適応する。
CXR画像における概念の証明を実証し、11種類の胸部病理を含む4つの異なる外部データセットにわたる広範な実験的検証を行った。
以上の結果から,AFLOCは病巣の局所化や病巣分類において最先端の手法を超越し,また5つの病巣の特定においてヒトのベンチマークよりも優れていたことが示唆された。
さらに、網膜基底画像に適用することで、その一般化能力をさらに検証する。
本手法は, AFoc の多様性を実証し, 複雑な臨床環境における臨床診断への適合性を裏付けるものである。
関連論文リスト
- Aligning Human Knowledge with Visual Concepts Towards Explainable Medical Image Classification [8.382606243533942]
本稿では,説明可能な言語インフォームド基準に基づく診断に向けて,シンプルで効果的なフレームワークであるExplicdを紹介した。
事前訓練された視覚言語モデルを活用することで、Explicdはこれらの基準を知識アンカーとして埋め込み空間に注入する。
最終的な診断結果は、符号化された視覚概念とテキストの基準埋め込みとの類似度スコアに基づいて決定される。
論文 参考訳(メタデータ) (2024-06-08T23:23:28Z) - Integrating Medical Imaging and Clinical Reports Using Multimodal Deep Learning for Advanced Disease Analysis [3.8758525789991896]
医用画像や臨床報告からの異種情報を深く統合する,革新的なマルチモーダル深層学習モデルを提案する。
医用画像では、畳み込みニューラルネットワークを用いて高次元の特徴を抽出し、重要な視覚情報をキャプチャした。
臨床報告テキストでは,2方向の長期・短期記憶ネットワークと注意機構を組み合わせることで,深い意味理解を実現する。
論文 参考訳(メタデータ) (2024-05-23T02:22:10Z) - Knowledge-enhanced Visual-Language Pretraining for Computational Pathology [68.6831438330526]
本稿では,公共資源から収集した大規模画像テキストペアを利用した視覚的表現学習の課題について考察する。
ヒト32組織から病理診断を必要とする4,718の疾患に対して50,470個の情報属性からなる病理知識ツリーをキュレートする。
論文 参考訳(メタデータ) (2024-04-15T17:11:25Z) - A Clinical-oriented Multi-level Contrastive Learning Method for Disease Diagnosis in Low-quality Medical Images [4.576524795036682]
コントラスト学習(CL)により誘導される疾患診断法は,病変の特徴表現において有意な優位性を示した。
本稿では,病変の特徴を抽出するためのモデルの能力向上を目的とした,臨床指向型多段階CLフレームワークを提案する。
提案されたCLフレームワークは、EyeQとChest X-rayの2つの公開医療画像データセットで検証されている。
論文 参考訳(メタデータ) (2024-04-07T09:08:14Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Multi-Modal Learning Using Physicians Diagnostics for Optical Coherence
Tomography Classification [0.0]
我々は,光学コヒーレンス・トモグラフィーの分析に専門家の診断と知見を取り入れたフレームワークを提案する。
OCTを用いた疾患分類を改善するために,医学診断属性データセットを作成する。
論文 参考訳(メタデータ) (2022-03-20T18:37:20Z) - Act Like a Radiologist: Towards Reliable Multi-view Correspondence
Reasoning for Mammogram Mass Detection [49.14070210387509]
マンモグラム質量検出のための解剖学的グラフ畳み込みネットワーク(AGN)を提案する。
AGNはマンモグラムの質量検出用に調整されており、既存の検出手法を多視点推論能力で実現している。
2つの標準ベンチマークの実験によると、AGNは最先端のパフォーマンスを大幅に上回っている。
論文 参考訳(メタデータ) (2021-05-21T06:48:34Z) - Malignancy Prediction and Lesion Identification from Clinical
Dermatological Images [65.1629311281062]
臨床皮膚画像から機械学習に基づく悪性度予測と病変の同定を検討する。
まず, サブタイプや悪性度に関わらず画像に存在するすべての病変を同定し, その悪性度を推定し, 凝集により, 画像レベルの悪性度も生成する。
論文 参考訳(メタデータ) (2021-04-02T20:52:05Z) - Weakly supervised multiple instance learning histopathological tumor
segmentation [51.085268272912415]
スライド画像全体のセグメント化のための弱教師付きフレームワークを提案する。
トレーニングモデルに複数のインスタンス学習スキームを利用する。
提案するフレームワークは,The Cancer Genome AtlasとPatchCamelyonデータセットのマルチロケーションとマルチ中心公開データに基づいて評価されている。
論文 参考訳(メタデータ) (2020-04-10T13:12:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。