論文の概要: IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2310.07355v4
- Date: Mon, 30 Sep 2024 16:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:04.684843
- Title: IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training
- Title(参考訳): Imitate: 先進的な階層型ビジョンランゲージ事前トレーニング
- Authors: Che Liu, Sibo Cheng, Miaojing Shi, Anand Shah, Wenjia Bai, Rossella Arcucci,
- Abstract要約: 階層的視覚言語アライメントを用いた医療報告から構造情報を学習するための新しいフレームワークImitateを提案する。
このフレームワークは胸部X線(CXR)画像から多段階の視覚特徴を導出し、これらの特徴を階層的な医療報告に符号化された記述的および決定的テキストと別々に整列する。
- 参考スコア(独自算出の注目度): 15.04212780946932
- License:
- Abstract: In the field of medical Vision-Language Pre-training (VLP), significant efforts have been devoted to deriving text and image features from both clinical reports and associated medical images. However, most existing methods may have overlooked the opportunity in leveraging the inherent hierarchical structure of clinical reports, which are generally split into `findings' for descriptive content and `impressions' for conclusive observation. Instead of utilizing this rich, structured format, current medical VLP approaches often simplify the report into either a unified entity or fragmented tokens. In this work, we propose a novel clinical prior guided VLP framework named IMITATE to learn the structure information from medical reports with hierarchical vision-language alignment. The framework derives multi-level visual features from the chest X-ray (CXR) images and separately aligns these features with the descriptive and the conclusive text encoded in the hierarchical medical report. Furthermore, a new clinical-informed contrastive loss is introduced for cross-modal learning, which accounts for clinical prior knowledge in formulating sample correlations in contrastive learning. The proposed model, IMITATE, outperforms baseline VLP methods across six different datasets, spanning five medical imaging downstream tasks. Comprehensive experimental results highlight the advantages of integrating the hierarchical structure of medical reports for vision-language alignment.
- Abstract(参考訳): VLP(Vision-Language Pre-Training)の分野では、臨床報告と関連する医療画像の両方からテキストや画像の特徴を抽出するための重要な取り組みがなされている。
しかし、既存のほとんどの手法は、臨床報告の固有の階層構造を活用する機会を見落としていた可能性があり、これは一般的に説明内容の「フィニング」と決定的な観察のための「印象」に分けられる。
このリッチで構造化されたフォーマットを利用する代わりに、現在の医療用VLPアプローチは、統一されたエンティティまたは断片化されたトークンへのレポートを単純化することが多い。
本研究は,医用レポートから階層的視覚言語アライメントを付加した構造情報を学習するために,Imitateという新規な臨床事前指導型VLPフレームワークを提案する。
このフレームワークは胸部X線(CXR)画像から多段階の視覚特徴を導出し、これらの特徴を階層的な医療報告に符号化された記述的および決定的テキストと別々に整列する。
さらに, 比較学習におけるサンプル相関の定式化において臨床先行知識を考慮に入れた, クロスモーダル学習において, 新たな臨床インフォームド・コントラッシブ・ロスが導入された。
提案したモデルであるIMITATEは、6つの異なるデータセットでベースラインのVLPメソッドより優れており、5つの医用画像下流タスクにまたがっている。
総合的な実験結果は、医報の階層構造を視覚言語アライメントに組み込むことの利点を浮き彫りにした。
関連論文リスト
- Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Prompt-Guided Generation of Structured Chest X-Ray Report Using a Pre-trained LLM [5.766695041882696]
事前学習型大言語モデル(LLM)を用いた胸部X線構造レポート作成のためのプロンプト誘導手法を提案する。
まず,胸部X線で解剖学的領域を同定し,重要な視覚要素に焦点を絞った文を生成する。
また,検出された解剖学を,解剖学的理解を LLM に伝達するテキストプロンプトに変換する。
論文 参考訳(メタデータ) (2024-04-17T09:45:43Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Enhancing the vision-language foundation model with key semantic
knowledge-emphasized report refinement [8.717599327516822]
本稿では,キーセマンティックな知識強調レポート改善手法を提案することで,新しい視覚言語表現学習フレームワークを開発する。
我々のフレームワークは、微調整とゼロショットの両方において、最先端の7つの手法を超越している。
論文 参考訳(メタデータ) (2024-01-21T07:57:04Z) - Knowledge Graph Embeddings for Multi-Lingual Structured Representations
of Radiology Reports [40.606143019674654]
本稿では,新しい軽量グラフベースの埋め込み手法,特に放射線学レポートのキャタリングについて紹介する。
報告書の構造と構成を考慮し、報告書の医療用語を接続する。
本稿では,X線レポートの疾患分類と画像分類という2つのタスクにこの埋め込みを組み込むことについて述べる。
論文 参考訳(メタデータ) (2023-09-02T11:46:41Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文 参考訳(メタデータ) (2022-10-12T09:31:39Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - A Comparison of Pre-trained Vision-and-Language Models for Multimodal
Representation Learning across Medical Images and Reports [5.074841553282345]
本研究では,MIMIC-CXRラジオグラフィーおよび関連レポートから,事前学習した4つのV+Lモデルを用いてマルチモーダル表現を学習する。
先駆的なCNN-RNNモデルと比較して、事前訓練されたV+Lモデルによって学習された共同埋め込みは、胸郭所見分類タスクの性能改善を示す。
論文 参考訳(メタデータ) (2020-09-03T09:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。