Fugu-MT 論文翻訳(概要): IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training

論文の概要: IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training

arxiv url: http://arxiv.org/abs/2310.07355v3
Date: Wed, 1 May 2024 10:06:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-02 11:09:15.443132
Title: IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training
Title（参考訳）: Imitate: 先進的な階層型ビジョンランゲージ事前トレーニング
Authors: Che Liu, Sibo Cheng, Miaojing Shi, Anand Shah, Wenjia Bai, Rossella Arcucci,
Abstract要約: 階層的視覚言語アライメントを用いた医療報告から構造情報を学習するための新しいフレームワークImitateを提案する。このフレームワークは胸部X線(CXR)画像から多段階の視覚特徴を導出し、これらの特徴を階層的な医療報告に符号化された記述的および決定的テキストと別々に整列する。
参考スコア（独自算出の注目度）: 15.04212780946932
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the field of medical Vision-Language Pre-training (VLP), significant efforts have been devoted to deriving text and image features from both clinical reports and associated medical images. However, most existing methods may have overlooked the opportunity in leveraging the inherent hierarchical structure of clinical reports, which are generally split into `findings' for descriptive content and `impressions' for conclusive observation. Instead of utilizing this rich, structured format, current medical VLP approaches often simplify the report into either a unified entity or fragmented tokens. In this work, we propose a novel clinical prior guided VLP framework named IMITATE to learn the structure information from medical reports with hierarchical vision-language alignment. The framework derives multi-level visual features from the chest X-ray (CXR) images and separately aligns these features with the descriptive and the conclusive text encoded in the hierarchical medical report. Furthermore, a new clinical-informed contrastive loss is introduced for cross-modal learning, which accounts for clinical prior knowledge in formulating sample correlations in contrastive learning. The proposed model, IMITATE, outperforms baseline VLP methods across six different datasets, spanning five medical imaging downstream tasks. Comprehensive experimental results highlight the advantages of integrating the hierarchical structure of medical reports for vision-language alignment.
Abstract（参考訳）: VLP(Vision-Language Pre-Training)の分野では、臨床報告と関連する医療画像の両方からテキストや画像の特徴を抽出するための重要な取り組みがなされている。しかし、既存のほとんどの手法は、臨床報告の固有の階層構造を活用する機会を見落としていた可能性があり、これは一般的に説明内容の「フィニング」と決定的な観察のための「印象」に分けられる。このリッチで構造化されたフォーマットを利用する代わりに、現在の医療用VLPアプローチは、統一されたエンティティまたは断片化されたトークンへのレポートを単純化することが多い。本研究は,医用レポートから階層的視覚言語アライメントを付加した構造情報を学習するために,Imitateという新規な臨床事前指導型VLPフレームワークを提案する。このフレームワークは胸部X線(CXR)画像から多段階の視覚特徴を導出し、これらの特徴を階層的な医療報告に符号化された記述的および決定的テキストと別々に整列する。さらに, 比較学習におけるサンプル相関の定式化において臨床先行知識を考慮に入れた, クロスモーダル学習において, 新たな臨床インフォームド・コントラッシブ・ロスが導入された。提案したモデルであるIMITATEは、6つの異なるデータセットでベースラインのVLPメソッドより優れており、5つの医用画像下流タスクにまたがっている。総合的な実験結果は、医報の階層構造を視覚言語アライメントに組み込むことの利点を浮き彫りにした。

関連論文リスト

Bringing CLIP to the Clinic: Dynamic Soft Labels and Negation-Aware Learning for Medical Analysis [0.9944647907864256]
臨床的に強化されたダイナミック・ソフト・ラベルと医用グラフィカル・アライメントを統合した新しいアプローチを提案する。われわれのアプローチは、医療用CLIPトレーニングパイプラインに容易に統合され、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-28T08:00:18Z)
Knowledge-Augmented Language Models Interpreting Structured Chest X-Ray Findings [44.99833362998488]
本稿では,胸部X線解釈に強力なテキスト中心言語モデルを利用する新しいフレームワークであるCXR-TextInterを紹介する。我々は,このLCM中心のアプローチを統合医療知識モジュールで強化し,臨床推論を強化する。我々の研究は医療画像AIの代替パラダイムを検証し、高度なLLM機能を活用する可能性を示している。
論文参考訳（メタデータ） (2025-05-03T06:18:12Z)
MedFILIP: Medical Fine-grained Language-Image Pre-training [11.894318326422054]
既存の手法は、画像と疾患の関連性を正確に特徴づけるのに苦労している。 MedFILIPは対照的な学習を通じて医用画像固有の知識を導入する。単一ラベル,多ラベル,きめ細かな分類を行う場合,本モデルは最先端の性能を実現する。
論文参考訳（メタデータ） (2025-01-18T14:08:33Z)
RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文参考訳（メタデータ） (2025-01-13T17:55:32Z)
SGSeg: Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance [10.075820470715374]
テキストフリー推論(ユニモーダル)を実現しつつ、学習のための言語指導(マルチモーダル)を活用するセルフガイドセグメンテーションフレームワーク(SGSeg)を提案する。本報告では, 肺, 病理組織ともに重要な位置情報を活用するとともに, 自己指導のための臨床報告を生成するために, 新たな局所化強化レポート生成(LERG)モジュールを導入する。我々のLERGは、位置認識型擬似ラベル抽出モジュールによって弱制御された、オブジェクト検出器と位置ベースアグリゲータを統合している。
論文参考訳（メタデータ） (2024-09-07T08:16:00Z)
Prompt-Guided Generation of Structured Chest X-Ray Report Using a Pre-trained LLM [5.766695041882696]
事前学習型大言語モデル(LLM)を用いた胸部X線構造レポート作成のためのプロンプト誘導手法を提案する。まず,胸部X線で解剖学的領域を同定し,重要な視覚要素に焦点を絞った文を生成する。また,検出された解剖学を,解剖学的理解を LLM に伝達するテキストプロンプトに変換する。
論文参考訳（メタデータ） (2024-04-17T09:45:43Z)
Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文参考訳（メタデータ） (2024-03-21T17:58:56Z)
Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文参考訳（メタデータ） (2024-03-19T03:59:14Z)
Knowledge Graph Embeddings for Multi-Lingual Structured Representations of Radiology Reports [40.606143019674654]
本稿では,新しい軽量グラフベースの埋め込み手法,特に放射線学レポートのキャタリングについて紹介する。報告書の構造と構成を考慮し、報告書の医療用語を接続する。本稿では,X線レポートの疾患分類と画像分類という2つのタスクにこの埋め込みを組み込むことについて述べる。
論文参考訳（メタデータ） (2023-09-02T11:46:41Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
Multi-Granularity Cross-modal Alignment for Generalized Medical Visual Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文参考訳（メタデータ） (2022-10-12T09:31:39Z)
Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。 CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文参考訳（メタデータ） (2022-06-04T13:16:30Z)
Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文参考訳（メタデータ） (2021-08-02T10:42:52Z)
A Comparison of Pre-trained Vision-and-Language Models for Multimodal Representation Learning across Medical Images and Reports [5.074841553282345]
本研究では,MIMIC-CXRラジオグラフィーおよび関連レポートから,事前学習した4つのV+Lモデルを用いてマルチモーダル表現を学習する。先駆的なCNN-RNNモデルと比較して、事前訓練されたV+Lモデルによって学習された共同埋め込みは、胸郭所見分類タスクの性能改善を示す。
論文参考訳（メタデータ） (2020-09-03T09:00:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。