論文の概要: Visual Prompt Engineering for Vision Language Models in Radiology
- arxiv url: http://arxiv.org/abs/2408.15802v2
- Date: Mon, 10 Feb 2025 15:12:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:25:28.549008
- Title: Visual Prompt Engineering for Vision Language Models in Radiology
- Title(参考訳): 放射線学における視覚言語モデルのための視覚プロンプト工学
- Authors: Stefan Denner, Markus Bujotzek, Dimitrios Bounias, David Zimmerer, Raphael Stock, Klaus Maier-Hein,
- Abstract要約: Contrastive Language-Image Pretraining (CLIPP) は、大規模な事前訓練を通じてゼロショット分類を可能にするソリューションを提供する。
ビジュアルマーカーはAUROC2013$を0.185まで改善し、分類性能を向上させる効果を強調した。
我々はコードと前処理パイプラインを公開し、医用画像の局所分類に関する今後の研究の基準点を提供する。
- 参考スコア(独自算出の注目度): 0.17183214167143138
- License:
- Abstract: Medical image classification plays a crucial role in clinical decision-making, yet most models are constrained to a fixed set of predefined classes, limiting their adaptability to new conditions. Contrastive Language-Image Pretraining (CLIP) offers a promising solution by enabling zero-shot classification through multimodal large-scale pretraining. However, while CLIP effectively captures global image content, radiology requires a more localized focus on specific pathology regions to enhance both interpretability and diagnostic accuracy. To address this, we explore the potential of incorporating visual cues into zero-shot classification, embedding visual markers $\unicode{x2013}$ such as arrows, bounding boxes, and circles $\unicode{x2013}$ directly into radiological images to guide model attention. Evaluating across four public chest X-ray datasets, we demonstrate that visual markers improve AUROC by up to 0.185, highlighting their effectiveness in enhancing classification performance. Furthermore, attention map analysis confirms that visual cues help models focus on clinically relevant areas, leading to more interpretable predictions. To support further research, we use public datasets and will release our code and preprocessing pipeline, providing a reference point for future work on localized classification in medical imaging.
- Abstract(参考訳): 医療画像分類は臨床的意思決定において重要な役割を担っているが、ほとんどのモデルでは、あらかじめ定義されたクラスの固定セットに制約され、新しい条件への適応性が制限される。
Contrastive Language-Image Pretraining (CLIP) は,マルチモーダルな大規模事前訓練によるゼロショット分類を可能にすることで,有望なソリューションを提供する。
しかし、CLIPは、グローバルな画像コンテンツを効果的にキャプチャするが、ラジオロジーは、解釈可能性と診断精度の両方を高めるために、特定の病理領域により局所的に焦点を合わせる必要がある。
これを解決するために、ゼロショット分類に視覚的手がかりを組み込む可能性を探り、矢印、バウンディングボックス、円などの視覚的マーカー$\unicode{x2013}$を直接放射線画像に埋め込んでモデル注意を誘導する。
4つの公開胸部X線データを用いて,視覚マーカーがAUROCを0.185倍改善することを示した。
さらに、注意マップ解析により、視覚的手がかりが臨床的に関連のある領域に焦点を合わせるのに役立つことが確認され、より解釈可能な予測が導かれる。
さらなる研究を支援するため、私たちは公開データセットを使用し、コードと前処理パイプラインを公開します。
関連論文リスト
- Fairness Analysis of CLIP-Based Foundation Models for X-Ray Image Classification [15.98427699337596]
X線画像分類に応用したCLIP様モデルの包括的公平性解析を行う。
我々は,ゼロショット推論と様々な微調整技術を用いて,多様な患者集団と疾患カテゴリーにおけるパフォーマンスと公平性を評価した。
論文 参考訳(メタデータ) (2025-01-31T12:23:50Z) - MedFocusCLIP : Improving few shot classification in medical datasets using pixel wise attention [1.2277343096128712]
本稿では,CLIP(Contrastive Language- Image Pretraining)における視覚的エンコーダを支援する視覚的プロンプトキューとして,Segment Anything Model 2(SAM2)の高度なセグメンテーション機能を活用することを提案する。
これにより、視覚的に類似したバックグラウンド機能に気を散らすことなく、非常に差別的な領域に集中することができる。
提案手法は,X線,CTスキャン,MRI画像など多種多様な医療データセットを用いて評価し,提案手法の精度(71%,81%,86%,58%)を報告する。
論文 参考訳(メタデータ) (2025-01-07T14:49:12Z) - Explanations of Classifiers Enhance Medical Image Segmentation via
End-to-end Pre-training [37.11542605885003]
医用画像セグメンテーションは、ディープニューラルネットワークを用いて、胸部X線写真などの医用画像の異常な構造を特定し、発見することを目的としている。
我々の研究は、よく訓練された分類器から説明を集め、セグメンテーションタスクの擬似ラベルを生成する。
次に、インテグレート・グラディエント(IG)法を用いて、分類器から得られた説明を蒸留し、強化し、大規模診断指向のローカライゼーション・ラベル(DoLL)を生成する。
これらのDLLアノテーション付き画像は、新型コロナウイルス感染症、肺、心臓、鎖骨などの下流のセグメンテーションタスクのために、モデルを微調整する前に事前訓練するために使用される。
論文 参考訳(メタデータ) (2024-01-16T16:18:42Z) - Forward-Forward Contrastive Learning [4.465144120325802]
医用画像分類のための新しい事前学習手法として,前向きコントラスト学習(FFCL)を提案する。
FFCLは、肺炎分類タスクにおける既存の事前訓練モデルよりも、ImageNet Pretrained ResNet-18よりも3.69%の精度で性能が向上している。
論文 参考訳(メタデータ) (2023-05-04T15:29:06Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders [50.689585476660554]
本稿では,正対損失緩和とランダムな文サンプリングを含む新たな微調整手法を提案する。
提案手法は,胸部X線データセットと3つの事前訓練モデル間のゼロショット病理分類を一貫して改善する。
論文 参考訳(メタデータ) (2022-12-14T06:04:18Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Explaining Clinical Decision Support Systems in Medical Imaging using
Cycle-Consistent Activation Maximization [112.2628296775395]
ディープニューラルネットワークを用いた臨床意思決定支援は、着実に関心が高まりつつあるトピックとなっている。
臨床医は、その根底にある意思決定プロセスが不透明で理解しにくいため、この技術の採用をためらうことが多い。
そこで我々は,より小さなデータセットであっても,分類器決定の高品質な可視化を生成するCycleGANアクティベーションに基づく,新たな意思決定手法を提案する。
論文 参考訳(メタデータ) (2020-10-09T14:39:27Z) - Multi-label Thoracic Disease Image Classification with Cross-Attention
Networks [65.37531731899837]
胸部X線画像から胸部疾患を自動分類するためのCAN(Cross-Attention Networks)を提案する。
また,クロスエントロピー損失を超える新たな損失関数を設計し,クラス間の不均衡を克服する。
論文 参考訳(メタデータ) (2020-07-21T14:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。