論文の概要: MedFILIP: Medical Fine-grained Language-Image Pre-training
- arxiv url: http://arxiv.org/abs/2501.10775v1
- Date: Sat, 18 Jan 2025 14:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:25:14.720984
- Title: MedFILIP: Medical Fine-grained Language-Image Pre-training
- Title(参考訳): MedFILIP: 医療用きめ細かい言語画像事前学習
- Authors: Xinjie Liang, Xiangyu Li, Fanding Li, Jie Jiang, Qing Dong, Wei Wang, Kuanquan Wang, Suyu Dong, Gongning Luo, Shuo Li,
- Abstract要約: 既存の手法は、画像と疾患の関連性を正確に特徴づけるのに苦労している。
MedFILIPは対照的な学習を通じて医用画像固有の知識を導入する。
単一ラベル,多ラベル,きめ細かな分類を行う場合,本モデルは最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 11.894318326422054
- License:
- Abstract: Medical vision-language pretraining (VLP) that leverages naturally-paired medical image-report data is crucial for medical image analysis. However, existing methods struggle to accurately characterize associations between images and diseases, leading to inaccurate or incomplete diagnostic results. In this work, we propose MedFILIP, a fine-grained VLP model, introduces medical image-specific knowledge through contrastive learning, specifically: 1) An information extractor based on a large language model is proposed to decouple comprehensive disease details from reports, which excels in extracting disease deals through flexible prompt engineering, thereby effectively reducing text complexity while retaining rich information at a tiny cost. 2) A knowledge injector is proposed to construct relationships between categories and visual attributes, which help the model to make judgments based on image features, and fosters knowledge extrapolation to unfamiliar disease categories. 3) A semantic similarity matrix based on fine-grained annotations is proposed, providing smoother, information-richer labels, thus allowing fine-grained image-text alignment. 4) We validate MedFILIP on numerous datasets, e.g., RSNA-Pneumonia, NIH ChestX-ray14, VinBigData, and COVID-19. For single-label, multi-label, and fine-grained classification, our model achieves state-of-the-art performance, the classification accuracy has increased by a maximum of 6.69\%. The code is available in https://github.com/PerceptionComputingLab/MedFILIP.
- Abstract(参考訳): 医用画像データを利用した医用視覚言語事前訓練(VLP)は、医用画像解析に不可欠である。
しかし、既存の手法は画像と疾患の関連性を正確に特徴づけることに苦慮し、不正確な診断結果や不完全な診断結果をもたらす。
本稿では, 医用画像固有の知識を, 対照的な学習を通じて導入する, 詳細なVLPモデルであるMedFILIPを提案する。
1) 大規模言語モデルに基づく情報抽出器は, フレキシブル・プログレッシブ・エンジニアリング(フレキシブル・プログレッシブ・エンジニアリング)を通じて, 病気の取引を抽出し, リッチ・インフォメーションを少ないコストで維持しつつ, テキストの複雑さを効果的に低減するレポートから, 包括的疾患の詳細を分離するために提案される。
2)知識インジェクタは,画像の特徴に基づく判断をモデルが支援し,未知の疾患カテゴリに対する知識外挿を促進するために,カテゴリと視覚属性の関係を構築するために提案される。
3) 詳細なアノテーションに基づく意味的類似性行列を提案し, よりスムーズで情報豊かなラベルを提供し, きめ細かい画像テキストアライメントを実現する。
4) MedFILIPを, RSNA-肺炎, NIH ChestX-ray14, VinBigData, COVID-19など多数のデータセットで検証した。
単一ラベル, 複数ラベル, きめ細かい分類では, 最先端性能が得られ, 分類精度は最大6.69\%向上した。
コードはhttps://github.com/PerceptionComputingLab/MedFILIPで入手できる。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - MLIP: Medical Language-Image Pre-training with Masked Local
Representation Learning [20.33625985769796]
既存のコントラスト言語画像事前学習は、豊富な画像とテキストのペアをマッチングすることで、共同表現を学習することを目的としている。
本稿では,限られた画像テキストの医療データをより効率的に活用する医用言語-画像事前学習フレームワークを提案する。
評価の結果、MLIPはゼロ/フェーショット分類や少数ショット分割タスクにおいて、従来よりも大きなマージンで性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-01-03T07:54:13Z) - CXR-CLIP: Toward Large Scale Chest X-ray Language-Image Pre-training [6.292642131180376]
本稿では,胸部X線における画像テキストデータの欠如に対処し,画像テキストペアを一般プロンプトを介して画像テキストペアとして拡張する。
また,医学画像とレポートの学習レベルの特徴を学習するために,ICLとTCLという2つの対照的な損失を設計した。
我々のモデルは、同じ条件下で訓練された最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-10-20T05:44:55Z) - A ChatGPT Aided Explainable Framework for Zero-Shot Medical Image
Diagnosis [15.13309228766603]
診断にChatGPTを付加した新しいCLIPベースのゼロショット画像分類フレームワークを提案する。
鍵となるアイデアは、大きな言語モデル(LLM)をカテゴリ名でクエリして、追加のキューと知識を自動的に生成することだ。
1つのプライベートデータセットと4つのパブリックデータセットの広範な結果と詳細な分析は、トレーニング不要なゼロショット診断パイプラインの有効性と説明可能性を示している。
論文 参考訳(メタデータ) (2023-07-05T01:45:19Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - KiUT: Knowledge-injected U-Transformer for Radiology Report Generation [10.139767157037829]
X線画像から臨床的正確で一貫性のある段落を自動的に生成することを目的とする。
知識注入型U-Transformer (KiUT) を提案する。
論文 参考訳(メタデータ) (2023-06-20T07:27:28Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Positional Contrastive Learning for Volumetric Medical Image
Segmentation [13.086140606803408]
コントラストデータペアを生成するための新しい位置コントラスト学習フレームワークを提案する。
提案手法は,半教師付き設定と移動学習の両方において既存の手法と比較して,セグメンテーション性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-06-16T22:15:28Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。