論文の概要: IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2310.07355v1
- Date: Wed, 11 Oct 2023 10:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 23:23:29.361737
- Title: IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training
- Title(参考訳): imitate: 臨床事前指導型階層的視覚言語前訓練
- Authors: Che Liu, Sibo Cheng, Miaojing Shi, Anand Shah, Wenjia Bai, Rossella
Arcucci
- Abstract要約: 階層的視覚言語アライメントを用いた医療報告から構造情報を学習するための新しいフレームワークImitateを提案する。
このフレームワークは胸部X線(CXR)画像から多段階の視覚特徴を導出し、これらの特徴を階層的な医療報告に符号化された記述的および決定的テキストと別々に整列する。
- 参考スコア(独自算出の注目度): 15.79642614851724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of medical Vision-Language Pre-training (VLP), significant
efforts have been devoted to deriving text and image features from both
clinical reports and associated medical images. However, most existing methods
may have overlooked the opportunity in leveraging the inherent hierarchical
structure of clinical reports, which are generally split into `findings' for
descriptive content and `impressions' for conclusive observation. Instead of
utilizing this rich, structured format, current medical VLP approaches often
simplify the report into either a unified entity or fragmented tokens. In this
work, we propose a novel clinical prior guided VLP framework named IMITATE to
learn the structure information from medical reports with hierarchical
vision-language alignment. The framework derives multi-level visual features
from the chest X-ray (CXR) images and separately aligns these features with the
descriptive and the conclusive text encoded in the hierarchical medical report.
Furthermore, a new clinical-informed contrastive loss is introduced for
cross-modal learning, which accounts for clinical prior knowledge in
formulating sample correlations in contrastive learning. The proposed model,
IMITATE, outperforms baseline VLP methods across six different datasets,
spanning five medical imaging downstream tasks. Comprehensive experimental
results highlight the advantages of integrating the hierarchical structure of
medical reports for vision-language alignment.
- Abstract(参考訳): VLP(Vision-Language Pre-Training)の分野では、臨床報告と関連する医療画像の両方からテキストや画像の特徴を抽出するための重要な取り組みがなされている。
しかし、既存の方法の多くは、概して記述内容の「発見」と決定的な観察の「印象」に分けられる臨床報告書の固有の階層構造を活用する機会を見落としていた可能性がある。
このリッチで構造化されたフォーマットを利用する代わりに、現在の医療用VLPアプローチは、統一されたエンティティまたは断片化されたトークンへのレポートを単純化することが多い。
本稿では,階層的視覚言語アライメントを用いて医療報告から構造情報を学習するための新しい臨床用事前誘導型vlpフレームワークイミテイトを提案する。
このフレームワークは胸部x線(cxr)画像から多レベル視覚特徴を導出し、これらの特徴を階層的医学レポートで符号化された記述的および決定的テキストと別々に調整する。
さらに, 比較学習におけるサンプル相関の定式化における臨床先行知識を考慮に入れた, クロスモーダル学習のための新しい臨床情報付きコントラスト損失を導入した。
提案するモデルであるimtateは、6つの異なるデータセットにわたるベースラインvlpメソッドを上回り、5つの医療画像下流タスクにまたがる。
総合実験の結果,視覚言語アライメントのための医療報告書の階層構造の統合の利点が浮き彫りになった。
関連論文リスト
- Anatomical Structure-Guided Medical Vision-Language Pre-training [21.68719061251635]
医用視覚表現を学習するための解剖学的構造ガイド(ASG)フレームワークを提案する。
解剖学的領域に対しては,放射線技師と協調して自動解剖学的領域文アライメントパラダイムを設計する。
画像の特徴を各サンプル内の各タグに関連付けるために,画像タグ認識デコーダを適用して画像タグとみなす。
論文 参考訳(メタデータ) (2024-03-14T11:29:47Z) - Enhancing the vision-language foundation model with key semantic
knowledge-emphasized report refinement [8.717599327516822]
本稿では,キーセマンティックな知識強調レポート改善手法を提案することで,新しい視覚言語表現学習フレームワークを開発する。
我々のフレームワークは、微調整とゼロショットの両方において、最先端の7つの手法を超越している。
論文 参考訳(メタデータ) (2024-01-21T07:57:04Z) - CLIP in Medical Imaging: A Comprehensive Survey [54.37291512559861]
コントラスト言語-画像事前学習は、視覚モデルにテキスト管理を導入することに成功している。
様々なタスクにおいて有望な結果を示しており、その一般化可能性と解釈可能性に起因している。
CLIPの使用は、最近医療画像領域への関心が高まっている。
論文 参考訳(メタデータ) (2023-12-12T15:21:57Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Knowledge Graph Embeddings for Multi-Lingual Structured Representations
of Radiology Reports [40.606143019674654]
本稿では,新しい軽量グラフベースの埋め込み手法,特に放射線学レポートのキャタリングについて紹介する。
報告書の構造と構成を考慮し、報告書の医療用語を接続する。
本稿では,X線レポートの疾患分類と画像分類という2つのタスクにこの埋め込みを組み込むことについて述べる。
論文 参考訳(メタデータ) (2023-09-02T11:46:41Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文 参考訳(メタデータ) (2022-10-12T09:31:39Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - A Comparison of Pre-trained Vision-and-Language Models for Multimodal
Representation Learning across Medical Images and Reports [5.074841553282345]
本研究では,MIMIC-CXRラジオグラフィーおよび関連レポートから,事前学習した4つのV+Lモデルを用いてマルチモーダル表現を学習する。
先駆的なCNN-RNNモデルと比較して、事前訓練されたV+Lモデルによって学習された共同埋め込みは、胸郭所見分類タスクの性能改善を示す。
論文 参考訳(メタデータ) (2020-09-03T09:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。