論文の概要: Anatomical Structure-Guided Medical Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2403.09294v1
- Date: Thu, 14 Mar 2024 11:29:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 20:47:15.579714
- Title: Anatomical Structure-Guided Medical Vision-Language Pre-training
- Title(参考訳): 解剖学的構造誘導型医用視力訓練
- Authors: Qingqiu Li, Xiaohan Yan, Jilan Xu, Runtian Yuan, Yuejie Zhang, Rui Feng, Quanli Shen, Xiaobo Zhang, Shujun Wang,
- Abstract要約: 医用視覚表現を学習するための解剖学的構造ガイド(ASG)フレームワークを提案する。
解剖学的領域に対しては,放射線技師と協調して自動解剖学的領域文アライメントパラダイムを設計する。
画像の特徴を各サンプル内の各タグに関連付けるために,画像タグ認識デコーダを適用して画像タグとみなす。
- 参考スコア(独自算出の注目度): 21.68719061251635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning medical visual representations through vision-language pre-training has reached remarkable progress. Despite the promising performance, it still faces challenges, i.e., local alignment lacks interpretability and clinical relevance, and the insufficient internal and external representation learning of image-report pairs. To address these issues, we propose an Anatomical Structure-Guided (ASG) framework. Specifically, we parse raw reports into triplets <anatomical region, finding, existence>, and fully utilize each element as supervision to enhance representation learning. For anatomical region, we design an automatic anatomical region-sentence alignment paradigm in collaboration with radiologists, considering them as the minimum semantic units to explore fine-grained local alignment. For finding and existence, we regard them as image tags, applying an image-tag recognition decoder to associate image features with their respective tags within each sample and constructing soft labels for contrastive learning to improve the semantic association of different image-report pairs. We evaluate the proposed ASG framework on two downstream tasks, including five public benchmarks. Experimental results demonstrate that our method outperforms the state-of-the-art methods.
- Abstract(参考訳): 視覚言語による事前学習による医用視覚表現の学習は目覚ましい進歩を遂げた。
有望な性能にもかかわらず、局所的なアライメントは解釈可能性と臨床的関連性に欠けており、画像-レポートペアの内部および外部表現学習が不十分である。
これらの問題に対処するために、解剖学的構造ガイド(ASG)フレームワークを提案する。
具体的には, 生のレポートを解剖学的領域, 発見, 存在>に解析し, 各要素を教師として活用し, 表現学習の促進を図る。
解剖学的領域に対しては,局所的な微粒なアライメントを探索するための最小のセマンティック単位として,放射線学者と共同で自動解剖学的領域文アライメントパラダイムを設計する。
画像タグの発見と存在をイメージタグとみなし,画像特徴とそれぞれのタグを関連づける画像タグ認識デコーダを適用し,コントラスト学習のためのソフトラベルを構築して,異なる画像レポートペアのセマンティックアソシエーションを改善する。
提案したASGフレームワークを5つの公開ベンチマークを含む2つの下流タスクで評価する。
実験の結果,本手法は最先端の手法よりも優れていた。
関連論文リスト
- A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - Segment as You Wish -- Free-Form Language-Based Segmentation for Medical Images [30.673958586581904]
フリーフォームなテキストプロンプトを処理する新しい医用画像セグメンテーションモデルであるFLanSを紹介する。
FLanSは、7つの公開データセットから100万以上の医療画像の大規模なデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2024-10-02T16:34:32Z) - Advancing Medical Radiograph Representation Learning: A Hybrid Pre-training Paradigm with Multilevel Semantic Granularity [14.223539927549782]
本稿では,グローバルレベルの視覚表現と印象とトークンレベルの視覚表現とを一致させるHybridMEDフレームワークを提案する。
本フレームワークでは,画像から印象を生成するための2つのプロキシタスクを,キャプションブランチを介して生成する生成デコーダと,(2)要約ブランチを介して解析を行う。
MIMIC-CXRデータセットの実験により,我々の要約部は,キャプション部に対する知識を効果的に蒸留し,パラメータ要求を大幅に増大させることなくモデル性能を向上させることを明らかにした。
論文 参考訳(メタデータ) (2024-10-01T07:05:36Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Region-based Contrastive Pretraining for Medical Image Retrieval with
Anatomic Query [56.54255735943497]
医用画像検索のための地域別コントラスト事前トレーニング(RegionMIR)
医用画像検索のための領域ベースコントラスト事前トレーニング(RegionMIR)について紹介する。
論文 参考訳(メタデータ) (2023-05-09T16:46:33Z) - Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文 参考訳(メタデータ) (2022-10-12T09:31:39Z) - Stain based contrastive co-training for histopathological image analysis [61.87751502143719]
本稿では,ヒストリボリューション画像の分類のための,新しい半教師付き学習手法を提案する。
我々は、半教師付き学習フレームワークを作成するために、パッチレベルのアノテーションと、新しいコトレーニング損失を併用した強力な監視を採用する。
透明細胞腎細胞および前立腺癌に対するアプローチを評価し,最先端の半教師あり学習法の改善を実証した。
論文 参考訳(メタデータ) (2022-06-24T22:25:31Z) - Cross-level Contrastive Learning and Consistency Constraint for
Semi-supervised Medical Image Segmentation [46.678279106837294]
半教師型医用画像セグメンテーションにおける局所特徴の表現能力を高めるためのクロスレベルコンストラシティブ学習手法を提案する。
クロスレベルなコントラスト学習と一貫性制約の助けを借りて、非ラベル付きデータを効果的に探索してセグメンテーション性能を向上させることができる。
論文 参考訳(メタデータ) (2022-02-08T15:12:11Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。