論文の概要: Knowledge-grounded Adaptation Strategy for Vision-language Models: Building Unique Case-set for Screening Mammograms for Residents Training
- arxiv url: http://arxiv.org/abs/2405.19675v1
- Date: Thu, 30 May 2024 04:04:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 18:16:37.118829
- Title: Knowledge-grounded Adaptation Strategy for Vision-language Models: Building Unique Case-set for Screening Mammograms for Residents Training
- Title(参考訳): 視覚言語モデルのための知識接地型適応戦略:居住者訓練のためのマンモグラムスクリーニングのための特異なケースセットの構築
- Authors: Aisha Urooj Khan, John Garrett, Tyler Bradshaw, Lonie Salkowski, Jiwoong Jason Jeong, Amara Tariq, Imon Banerjee,
- Abstract要約: 自然画像とテキストペアに事前訓練された視覚言語モデル(VLM)は、医学的文脈に適用した場合、大きな障壁となる。
本稿では, 選択的サンプリング法と強陰性マイニング法を用いて, VLMを医療領域に適応させるフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.819704618007536
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A visual-language model (VLM) pre-trained on natural images and text pairs poses a significant barrier when applied to medical contexts due to domain shift. Yet, adapting or fine-tuning these VLMs for medical use presents considerable hurdles, including domain misalignment, limited access to extensive datasets, and high-class imbalances. Hence, there is a pressing need for strategies to effectively adapt these VLMs to the medical domain, as such adaptations would prove immensely valuable in healthcare applications. In this study, we propose a framework designed to adeptly tailor VLMs to the medical domain, employing selective sampling and hard-negative mining techniques for enhanced performance in retrieval tasks. We validate the efficacy of our proposed approach by implementing it across two distinct VLMs: the in-domain VLM (MedCLIP) and out-of-domain VLMs (ALBEF). We assess the performance of these models both in their original off-the-shelf state and after undergoing our proposed training strategies, using two extensive datasets containing mammograms and their corresponding reports. Our evaluation spans zero-shot, few-shot, and supervised scenarios. Through our approach, we observe a notable enhancement in Recall@K performance for the image-text retrieval task.
- Abstract(参考訳): 自然画像とテキストペアに事前訓練された視覚言語モデル(VLM)は、ドメインシフトによる医学的コンテキストに適用する場合、大きな障壁となる。
しかし、これらのVLMを医療用途に適応または微調整することは、ドメインのミスアライメント、広範囲なデータセットへのアクセス制限、高レベルの不均衡など、かなりのハードルをもたらす。
したがって、これらのVLMを医療分野に効果的に適応させる戦略は、医療応用において非常に有用であることが証明されるため、強く求められている。
本研究では,VLMを医用領域に適応させるためのフレームワークを提案する。
提案手法の有効性を,ドメイン内VLM(MedCLIP)とドメイン外VLM(ALBEF)の2つの異なるVLMにまたがって実装することで検証する。
提案したトレーニング戦略を,マンモグラムとそれに対応するレポートを含む2つの広範囲なデータセットを用いて実施し,本モデルの性能評価を行った。
評価はゼロショット、少数ショット、および教師付きシナリオにまたがる。
本稿では,画像テキスト検索タスクにおけるRecall@K性能の顕著な向上を観察する。
関連論文リスト
- Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。
局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Efficient In-Context Medical Segmentation with Meta-driven Visual Prompt Selection [5.4498959901128226]
本稿では,Meta-driven Visual Prompt Selection Mechanism (MVPS)を導入し,ラベル効率のよい医用セグメンテーション手法を提案する。
MVPSは柔軟で微調整のないモジュールで、異なるバックボーンに簡単にプラグインでき、他のモデル中心のアプローチと組み合わせることができる。
論文 参考訳(メタデータ) (2024-07-15T19:22:32Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - Developing Healthcare Language Model Embedding Spaces [0.20971479389679337]
事前トレーニングされた大規模言語モデル(LLM)は、医療中心のテキストのようなドメイン外のデータセットに苦労することが多い。
従来のマスキング言語モデリング、Deep Contrastive Learning for Unsupervised Textual Representations(DeCLUTR)、およびヘルスケア設定からメタデータカテゴリを利用する新しい事前学習目標の3つの手法が評価されている。
対照的に訓練されたモデルは、分類タスクにおける他のアプローチよりも優れており、限られたラベル付きデータから強力なパフォーマンスを提供し、必要なモデルパラメータの更新を少なくする。
論文 参考訳(メタデータ) (2024-03-28T19:31:32Z) - Residual-based Language Models are Free Boosters for Biomedical Imaging [15.154015369984572]
本研究では,バイオメディカルイメージングタスクのエンコーダの一部として,残留型大規模言語モデル(LLM)の予期せぬ有効性を明らかにする。
これらのLCMは,2次元と3次元の視覚的分類タスクを含む,様々なバイオメディカルイメージングアプリケーションにおいて,性能を向上させることができることがわかった。
副産物として,提案手法は,MedMNIST-2Dと3Dの広範囲な標準化データセットに対して,最先端の成果を新たに設定し,優れた性能を実現した。
論文 参考訳(メタデータ) (2024-03-26T03:05:20Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。