論文の概要: IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2310.07355v1
- Date: Wed, 11 Oct 2023 10:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 23:23:29.361737
- Title: IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training
- Title(参考訳): imitate: 臨床事前指導型階層的視覚言語前訓練
- Authors: Che Liu, Sibo Cheng, Miaojing Shi, Anand Shah, Wenjia Bai, Rossella
Arcucci
- Abstract要約: 階層的視覚言語アライメントを用いた医療報告から構造情報を学習するための新しいフレームワークImitateを提案する。
このフレームワークは胸部X線(CXR)画像から多段階の視覚特徴を導出し、これらの特徴を階層的な医療報告に符号化された記述的および決定的テキストと別々に整列する。
- 参考スコア(独自算出の注目度): 15.79642614851724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of medical Vision-Language Pre-training (VLP), significant
efforts have been devoted to deriving text and image features from both
clinical reports and associated medical images. However, most existing methods
may have overlooked the opportunity in leveraging the inherent hierarchical
structure of clinical reports, which are generally split into `findings' for
descriptive content and `impressions' for conclusive observation. Instead of
utilizing this rich, structured format, current medical VLP approaches often
simplify the report into either a unified entity or fragmented tokens. In this
work, we propose a novel clinical prior guided VLP framework named IMITATE to
learn the structure information from medical reports with hierarchical
vision-language alignment. The framework derives multi-level visual features
from the chest X-ray (CXR) images and separately aligns these features with the
descriptive and the conclusive text encoded in the hierarchical medical report.
Furthermore, a new clinical-informed contrastive loss is introduced for
cross-modal learning, which accounts for clinical prior knowledge in
formulating sample correlations in contrastive learning. The proposed model,
IMITATE, outperforms baseline VLP methods across six different datasets,
spanning five medical imaging downstream tasks. Comprehensive experimental
results highlight the advantages of integrating the hierarchical structure of
medical reports for vision-language alignment.
- Abstract(参考訳): VLP(Vision-Language Pre-Training)の分野では、臨床報告と関連する医療画像の両方からテキストや画像の特徴を抽出するための重要な取り組みがなされている。
しかし、既存の方法の多くは、概して記述内容の「発見」と決定的な観察の「印象」に分けられる臨床報告書の固有の階層構造を活用する機会を見落としていた可能性がある。
このリッチで構造化されたフォーマットを利用する代わりに、現在の医療用VLPアプローチは、統一されたエンティティまたは断片化されたトークンへのレポートを単純化することが多い。
本稿では,階層的視覚言語アライメントを用いて医療報告から構造情報を学習するための新しい臨床用事前誘導型vlpフレームワークイミテイトを提案する。
このフレームワークは胸部x線(cxr)画像から多レベル視覚特徴を導出し、これらの特徴を階層的医学レポートで符号化された記述的および決定的テキストと別々に調整する。
さらに, 比較学習におけるサンプル相関の定式化における臨床先行知識を考慮に入れた, クロスモーダル学習のための新しい臨床情報付きコントラスト損失を導入した。
提案するモデルであるimtateは、6つの異なるデータセットにわたるベースラインvlpメソッドを上回り、5つの医療画像下流タスクにまたがる。
総合実験の結果,視覚言語アライメントのための医療報告書の階層構造の統合の利点が浮き彫りになった。
関連論文リスト
- SGSeg: Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance [10.075820470715374]
テキストフリー推論(ユニモーダル)を実現しつつ、学習のための言語指導(マルチモーダル)を活用するセルフガイドセグメンテーションフレームワーク(SGSeg)を提案する。
本報告では, 肺, 病理組織ともに重要な位置情報を活用するとともに, 自己指導のための臨床報告を生成するために, 新たな局所化強化レポート生成(LERG)モジュールを導入する。
我々のLERGは、位置認識型擬似ラベル抽出モジュールによって弱制御された、オブジェクト検出器と位置ベースアグリゲータを統合している。
論文 参考訳(メタデータ) (2024-09-07T08:16:00Z) - Prompt-Guided Generation of Structured Chest X-Ray Report Using a Pre-trained LLM [5.766695041882696]
事前学習型大言語モデル(LLM)を用いた胸部X線構造レポート作成のためのプロンプト誘導手法を提案する。
まず,胸部X線で解剖学的領域を同定し,重要な視覚要素に焦点を絞った文を生成する。
また,検出された解剖学を,解剖学的理解を LLM に伝達するテキストプロンプトに変換する。
論文 参考訳(メタデータ) (2024-04-17T09:45:43Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Knowledge Graph Embeddings for Multi-Lingual Structured Representations
of Radiology Reports [40.606143019674654]
本稿では,新しい軽量グラフベースの埋め込み手法,特に放射線学レポートのキャタリングについて紹介する。
報告書の構造と構成を考慮し、報告書の医療用語を接続する。
本稿では,X線レポートの疾患分類と画像分類という2つのタスクにこの埋め込みを組み込むことについて述べる。
論文 参考訳(メタデータ) (2023-09-02T11:46:41Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文 参考訳(メタデータ) (2022-10-12T09:31:39Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - A Comparison of Pre-trained Vision-and-Language Models for Multimodal
Representation Learning across Medical Images and Reports [5.074841553282345]
本研究では,MIMIC-CXRラジオグラフィーおよび関連レポートから,事前学習した4つのV+Lモデルを用いてマルチモーダル表現を学習する。
先駆的なCNN-RNNモデルと比較して、事前訓練されたV+Lモデルによって学習された共同埋め込みは、胸郭所見分類タスクの性能改善を示す。
論文 参考訳(メタデータ) (2020-09-03T09:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。