論文の概要: Grounded Knowledge-Enhanced Medical VLP for Chest X-Ray
- arxiv url: http://arxiv.org/abs/2404.14750v1
- Date: Tue, 23 Apr 2024 05:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 15:10:30.549577
- Title: Grounded Knowledge-Enhanced Medical VLP for Chest X-Ray
- Title(参考訳): 胸部X線診断のための基礎知識強化医療用VLP
- Authors: Qiao Deng, Zhongzhen Huang, Yunqi Wang, Zhichuan Wang, Zhao Wang, Xiaofan Zhang, Qi Dou, Yeung Yu Hui, Edward S. Hui,
- Abstract要約: 医用視覚言語プレトレーニングは、医用画像とテキストのドメイン汎用表現を学習するための有望なアプローチとして現れてきた。
胸部X線に対する知識強化型医療ビジョン言語事前学習フレームワークを提案する。
以上の結果から,胸部X線像とX線像との整合性を改善するために接地機構を組み込むことの利点が示唆された。
- 参考スコア(独自算出の注目度): 12.239249676716247
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Medical vision-language pre-training has emerged as a promising approach for learning domain-general representations of medical image and text. Current algorithms that exploit the global and local alignment between medical image and text could however be marred by the redundant information in medical data. To address this issue, we propose a grounded knowledge-enhanced medical vision-language pre-training (GK-MVLP) framework for chest X-ray. In this framework, medical knowledge is grounded to the appropriate anatomical regions by using a transformer-based grounded knowledge-enhanced module for fine-grained alignment between anatomical region-level visual features and the textural features of medical knowledge. The performance of GK-MVLP is competitive with or exceeds the state of the art on downstream chest X-ray disease classification, disease localization, report generation, and medical visual question-answering tasks. Our results show the advantage of incorporating grounding mechanism to remove biases and improve the alignment between chest X-ray image and radiology report.
- Abstract(参考訳): 医用視覚言語プレトレーニングは、医用画像とテキストのドメイン汎用表現を学習するための有望なアプローチとして現れてきた。
しかし、医用画像とテキストのグローバルなアライメントとローカルなアライメントを利用する現在のアルゴリズムは、医療データの冗長な情報によって損なわれる可能性がある。
そこで本研究では,胸部X線診断のための知識強調型医療ビジョン言語事前訓練(GK-MVLP)フレームワークを提案する。
本枠組みでは, 解剖学的領域の視覚的特徴と医学的知識のテクスチャ的特徴との微妙な整合性を実現するために, トランスフォーマーをベースとした基礎知識強化モジュールを用いて, 適切な解剖学的領域に医療知識を基盤とする。
GK-MVLPの性能は、下流の胸部X線疾患の分類、疾患の局在化、報告生成、および医学的視覚的質問応答タスクにおいて、最先端の課題と競合するか、それ以上である。
以上の結果から,胸部X線像とX線像との整合性を改善するために接地機構を組み込むことの利点が示唆された。
関連論文リスト
- MedRG: Medical Report Grounding with Multi-modal Large Language Model [42.04042642085121]
Medical Report Grounding (MedRG)は、キーフレーズを予測するためにマルチモーダルな大規模言語モデルを利用するエンドツーエンドのソリューションである。
MedRGの有効性を実証し,既存の医療用語の接頭法の性能を上回り,その効果を検証した。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Local Contrastive Learning for Medical Image Recognition [0.0]
Local Region Contrastive Learning(LRCLR)は、画像領域の選択と相互モダリティの相互作用のためのレイヤを追加するフレキシブルな微調整フレームワークである。
胸部X線検査の結果から,LRCLRは重要な局所画像領域を同定し,放射線学的テキストに対して有意義な解釈を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2023-03-24T17:04:26Z) - Medical Phrase Grounding with Region-Phrase Context Contrastive
Alignment [35.56193044201645]
医療用語の接頭辞は、特定の医学的発見を記述したフレーズクエリーを考慮し、医療画像の最も関連性の高い領域を特定することを目的としている。
本稿では,MPGのエンドツーエンドアプローチであるMedRPGを提案する。
MedRPGにより、より優れた地域フレーズ対応によるニュアンスド医療所見の発見を可能にするため、さらにTri-attention Context contrastive alignment (TaCo)を提案する。
論文 参考訳(メタデータ) (2023-03-14T03:57:16Z) - MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training in
Radiology [40.52487429030841]
医用医用視覚言語事前訓練を専門知識と組み合わせて行うことを検討する。
まず, 生の報告を直接処理する既存の作業とは異なり, 医療関連情報を抽出するために, 新規な三重項抽出モジュールを採用する。
第2に,医療分野における豊富な知識を活用するために,知識ベースを問合せすることで,エンティティ翻訳を伴う新しい三重項符号化モジュールを提案する。
第3に、トランスフォーマーを用いた融合モデルを用いて、画像パッチレベルでの実体記述と視覚信号との空間的整合を図り、診断を可能にすることを提案する。
論文 参考訳(メタデータ) (2023-01-05T18:55:09Z) - Detailed Annotations of Chest X-Rays via CT Projection for Report
Understanding [16.5295886999348]
臨床放射線学報告では、医師は患者の健康状態に関する重要な情報を取得する。
患者の内部構造に関する生の医療画像データから、観察結果を伝達する。
現在の医療画像処理システムでは、患者の解剖と外観の両方が明確に把握されていない。
論文 参考訳(メタデータ) (2022-10-07T09:21:48Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z) - In-Line Image Transformations for Imbalanced, Multiclass Computer Vision
Classification of Lung Chest X-Rays [91.3755431537592]
本研究は、COVID-19 LCXRデータ不足のバランスをとるために画像変換を適用するために、文献の体系を活用することを目的としている。
convolutional neural networks(cnns)のようなディープラーニング技術は、健康状態と疾患状態を区別する特徴を選択することができる。
本研究は,CNNアーキテクチャを用いて高速多クラスLCXR分類を94%精度で行う。
論文 参考訳(メタデータ) (2021-04-06T02:01:43Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。