論文の概要: MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training in
Radiology
- arxiv url: http://arxiv.org/abs/2301.02228v3
- Date: Mon, 3 Apr 2023 09:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 23:22:51.326559
- Title: MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training in
Radiology
- Title(参考訳): MedKLIP: 医学的知識を活かした言語画像による放射線診断
- Authors: Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie
- Abstract要約: 医用医用視覚言語事前訓練を専門知識と組み合わせて行うことを検討する。
まず, 生の報告を直接処理する既存の作業とは異なり, 医療関連情報を抽出するために, 新規な三重項抽出モジュールを採用する。
第2に,医療分野における豊富な知識を活用するために,知識ベースを問合せすることで,エンティティ翻訳を伴う新しい三重項符号化モジュールを提案する。
第3に、トランスフォーマーを用いた融合モデルを用いて、画像パッチレベルでの実体記述と視覚信号との空間的整合を図り、診断を可能にすることを提案する。
- 参考スコア(独自算出の注目度): 40.52487429030841
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we consider enhancing medical visual-language pre-training
(VLP) with domain-specific knowledge, by exploiting the paired image-text
reports from the radiological daily practice. In particular, we make the
following contributions: First, unlike existing works that directly process the
raw reports, we adopt a novel triplet extraction module to extract the
medical-related information, avoiding unnecessary complexity from language
grammar and enhancing the supervision signals; Second, we propose a novel
triplet encoding module with entity translation by querying a knowledge base,
to exploit the rich domain knowledge in medical field, and implicitly build
relationships between medical entities in the language embedding space; Third,
we propose to use a Transformer-based fusion model for spatially aligning the
entity description with visual signals at the image patch level, enabling the
ability for medical diagnosis; Fourth, we conduct thorough experiments to
validate the effectiveness of our architecture, and benchmark on numerous
public benchmarks, e.g., ChestX-ray14, RSNA Pneumonia, SIIM-ACR Pneumothorax,
COVIDx CXR-2, COVID Rural, and EdemaSeverity. In both zero-shot and fine-tuning
settings, our model has demonstrated strong performance compared with the
former methods on disease classification and grounding.
- Abstract(参考訳): 本稿では,放射線学的日々の実践から画像テキストのペアレポートを活用し,ドメイン固有知識を用いた医学的視覚言語前訓練(vlp)の強化を検討する。
In particular, we make the following contributions: First, unlike existing works that directly process the raw reports, we adopt a novel triplet extraction module to extract the medical-related information, avoiding unnecessary complexity from language grammar and enhancing the supervision signals; Second, we propose a novel triplet encoding module with entity translation by querying a knowledge base, to exploit the rich domain knowledge in medical field, and implicitly build relationships between medical entities in the language embedding space; Third, we propose to use a Transformer-based fusion model for spatially aligning the entity description with visual signals at the image patch level, enabling the ability for medical diagnosis; Fourth, we conduct thorough experiments to validate the effectiveness of our architecture, and benchmark on numerous public benchmarks, e.g., ChestX-ray14, RSNA Pneumonia, SIIM-ACR Pneumothorax, COVIDx CXR-2, COVID Rural, and EdemaSeverity.
ゼロショットと微調整の両方において,従来の疾患分類法や接地法と比較して高い性能を示した。
関連論文リスト
- KiUT: Knowledge-injected U-Transformer for Radiology Report Generation [10.139767157037829]
X線画像から臨床的正確で一貫性のある段落を自動的に生成することを目的とする。
知識注入型U-Transformer (KiUT) を提案する。
論文 参考訳(メタデータ) (2023-06-20T07:27:28Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Knowledge-enhanced Visual-Language Pre-training on Chest Radiology
Images [40.52487429030841]
胸部X線と放射線検査を用いた視力監督前訓練のための知識強調型自動診断(KAD)を提案する。
我々は、4つの外部X線データセット上でKADを評価し、そのゼロショット性能が完全言語モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:53:10Z) - K-Diag: Knowledge-enhanced Disease Diagnosis in Radiographic Imaging [40.52487429030841]
医用領域知識の指導による視覚表現の訓練を可能にする知識強化フレームワークを提案する。
まず、専門家の知識を明示的に取り入れるために、医療知識グラフの神経表現を学ぶことを提案する。
第二に、ビジュアルエンコーダのトレーニング中に、知識エンコーダのパラメータを凍結させ、効率的な適応のためのプロンプトベクトルのセットを学ぶことを提案する。
論文 参考訳(メタデータ) (2023-02-22T18:53:57Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Ontology-Driven and Weakly Supervised Rare Disease Identification from
Clinical Notes [13.096008602034086]
機械学習やドメインの専門家によるデータアノテーションの必要性から、希少な疾患の特定は困難である。
両方向変換器(例えばBERT)からの事前学習した文脈表現を用いた脳と弱い監督手法を提案する。
弱教師付きアプローチは、ドメインの専門家による注釈付きデータなしで、テキスト-UMLSリンクを改善するための確認表現型モデルを学ぶために提案される。
論文 参考訳(メタデータ) (2022-05-11T17:38:24Z) - Radiology Report Generation with a Learned Knowledge Base and
Multi-modal Alignment [27.111857943935725]
胸部X線からのレポート生成のための自動マルチモーダルアプローチを提案する。
本手法は,学習知識ベースとマルチモーダルアライメントの2つの異なるモジュールを特徴とする。
両モジュールの助けを借りて、我々のアプローチは明らかに最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2021-12-30T10:43:56Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。