Fugu-MT 論文翻訳(概要): Visual Prompt Engineering for Medical Vision Language Models in Radiology

論文の概要: Visual Prompt Engineering for Medical Vision Language Models in Radiology

arxiv url: http://arxiv.org/abs/2408.15802v1
Date: Wed, 28 Aug 2024 13:53:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-29 15:50:41.166544
Title: Visual Prompt Engineering for Medical Vision Language Models in Radiology
Title（参考訳）: 放射線学における医用視覚言語モデルのための視覚プロンプト工学
Authors: Stefan Denner, Markus Bujotzek, Dimitrios Bounias, David Zimmerer, Raphael Stock, Paul F. Jäger, Klaus Maier-Hein,
Abstract要約: ビジョン言語モデル(VLP)は、ゼロショットパフォーマンスの分類を改善するために学習を活用することで、有望なソリューションを提供する。本稿では,視覚的プロンプト工学の可能性を探究し,重要な領域への潜在的関心を高める。
参考スコア（独自算出の注目度）: 0.1636269503300992
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Medical image classification in radiology faces significant challenges, particularly in generalizing to unseen pathologies. In contrast, CLIP offers a promising solution by leveraging multimodal learning to improve zero-shot classification performance. However, in the medical domain, lesions can be small and might not be well represented in the embedding space. Therefore, in this paper, we explore the potential of visual prompt engineering to enhance the capabilities of Vision Language Models (VLMs) in radiology. Leveraging BiomedCLIP, trained on extensive biomedical image-text pairs, we investigate the impact of embedding visual markers directly within radiological images to guide the model's attention to critical regions. Our evaluation on the JSRT dataset, focusing on lung nodule malignancy classification, demonstrates that incorporating visual prompts $\unicode{x2013}$ such as arrows, circles, and contours $\unicode{x2013}$ significantly improves classification metrics including AUROC, AUPRC, F1 score, and accuracy. Moreover, the study provides attention maps, showcasing enhanced model interpretability and focus on clinically relevant areas. These findings underscore the efficacy of visual prompt engineering as a straightforward yet powerful approach to advance VLM performance in medical image analysis.
Abstract（参考訳）: 放射線学における医用画像分類は、特に目に見えない病態への一般化において重要な課題に直面している。対照的にCLIPは、ゼロショット分類性能を改善するためにマルチモーダル学習を活用することで、有望なソリューションを提供する。しかし、医学領域では病変は小さく、埋め込み空間ではうまく表現できない可能性がある。そこで本稿では,放射線学における視覚言語モデル(VLM)の能力を高めるために,視覚プロンプト工学の可能性を探る。バイオメディカルな画像テキストペアを訓練したバイオメディカルCLIPを用いて, 画像に直接視覚マーカーを埋め込むことによって, モデルが重要領域に注意を向ける影響について検討した。肺結節悪性度分類に着目したJSRTデータセットの評価では,矢印,円,輪郭などの視覚的プロンプトを$\unicode{x2013}$に組み込むことで,AUROC,AUPRC,F1スコア,精度などの分類基準を大幅に改善した。さらに,本研究は,注意マップ,強化されたモデル解釈可能性を示すとともに,臨床的に関連のある領域に焦点をあてる。これらの知見は、医用画像解析におけるVLM性能向上のための、単純かつ強力なアプローチとして、視覚的プロンプトエンジニアリングの有効性を裏付けるものである。

関連論文リスト

Interpreting Biomedical VLMs on High-Imbalance Out-of-Distributions: An Insight into BiomedCLIP on Radiology [0.0]
我々は、高度にバランスの取れない、アウト・オブ・ディストリビューションな医療データセットに適用した場合、BiomedCLIPの限界を分析する。ゼロショット設定下でのモデルは,すべてのラベルを過度に予測し,精度の低下とクラス間分離性に繋がることを示す。我々は、現実の環境で信頼性と適用性を高めるために、モデルの慎重な適応の必要性を強調します。
論文参考訳（メタデータ） (2025-06-17T02:59:42Z)
PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2025-04-09T14:58:21Z)
Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images [7.048241543461529]
ゼロショット組織像分類におけるこれらの課題に対処するため, MR-PHE(Multi-Resolution Prompt-Guided Hybrid Embedding)と呼ばれる新しいフレームワークを提案する。我々は,グローバルな画像埋め込みと重み付けされたパッチ埋め込みを統合したハイブリッドな埋め込み戦略を導入する。類似性に基づくパッチ重み付け機構は、クラス埋め込みとの関連性に基づいて、アテンションのような重み付けをパッチに割り当てる。
論文参考訳（メタデータ） (2025-03-13T12:18:37Z)
Fairness Analysis of CLIP-Based Foundation Models for X-Ray Image Classification [15.98427699337596]
X線画像分類に応用したCLIP様モデルの包括的公平性解析を行う。我々は,ゼロショット推論と様々な微調整技術を用いて,多様な患者集団と疾患カテゴリーにおけるパフォーマンスと公平性を評価した。
論文参考訳（メタデータ） (2025-01-31T12:23:50Z)
MedFocusCLIP : Improving few shot classification in medical datasets using pixel wise attention [1.2277343096128712]
本稿では,CLIP(Contrastive Language- Image Pretraining)における視覚的エンコーダを支援する視覚的プロンプトキューとして,Segment Anything Model 2(SAM2)の高度なセグメンテーション機能を活用することを提案する。これにより、視覚的に類似したバックグラウンド機能に気を散らすことなく、非常に差別的な領域に集中することができる。提案手法は,X線,CTスキャン,MRI画像など多種多様な医療データセットを用いて評価し,提案手法の精度(71%,81%,86%,58%)を報告する。
論文参考訳（メタデータ） (2025-01-07T14:49:12Z)
Adversarial Vessel-Unveiling Semi-Supervised Segmentation for Retinopathy of Prematurity Diagnosis [9.683492465191241]
広範囲な手動血管アノテーションを必要とせず,ROP研究を進めるための半教師付きセグメンテーションフレームワークを提案する。ラベル付きデータにのみ依存する従来の手法とは異なり,本手法では不確実性重み付き容器公開モジュールとドメイン対向学習を統合している。我々は、パブリックデータセットと社内ROPデータセットに対するアプローチを検証し、複数の評価指標で優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-11-14T02:40:34Z)
Scribble-Based Interactive Segmentation of Medical Hyperspectral Images [4.675955891956077]
本研究は、医用ハイパースペクトル画像のためのスクリブルベースのインタラクティブセグメンテーションフレームワークを導入する。提案手法は,特徴抽出のための深層学習と,ユーザが提供するスクリブルから生成された測地距離マップを利用する。
論文参考訳（メタデータ） (2024-08-05T12:33:07Z)
Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文参考訳（メタデータ） (2024-07-08T09:08:42Z)
MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文参考訳（メタデータ） (2024-02-03T05:48:50Z)
Explanations of Classifiers Enhance Medical Image Segmentation via End-to-end Pre-training [37.11542605885003]
医用画像セグメンテーションは、ディープニューラルネットワークを用いて、胸部X線写真などの医用画像の異常な構造を特定し、発見することを目的としている。我々の研究は、よく訓練された分類器から説明を集め、セグメンテーションタスクの擬似ラベルを生成する。次に、インテグレート・グラディエント(IG)法を用いて、分類器から得られた説明を蒸留し、強化し、大規模診断指向のローカライゼーション・ラベル(DoLL)を生成する。これらのDLLアノテーション付き画像は、新型コロナウイルス感染症、肺、心臓、鎖骨などの下流のセグメンテーションタスクのために、モデルを微調整する前に事前訓練するために使用される。
論文参考訳（メタデータ） (2024-01-16T16:18:42Z)
Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文参考訳（メタデータ） (2023-11-18T14:37:53Z)
GlanceSeg: Real-time microaneurysm lesion segmentation with gaze-map-guided foundation model for early detection of diabetic retinopathy [13.055297330424397]
早期糖尿病網膜症(DR)は微小血管腫による臨床診断に課題を呈する。セグメント・アズ・モデル(SAM)に基づいて,GlanceSeg というラベルフリー早期DR診断フレームワークを提案する。 GlanceSegは眼科医が眼底の画像をレビューするときに、微小血管腫の病変のリアルタイムセグメンテーションを可能にする。
論文参考訳（メタデータ） (2023-11-14T10:59:45Z)
Polar-Net: A Clinical-Friendly Model for Alzheimer's Disease Detection in OCTA Images [53.235117594102675]
オプティカルコヒーレンス・トモグラフィーは、網膜微小血管の画像化によってアルツハイマー病(AD)を検出するための有望なツールである。我々はPolar-Netと呼ばれる新しいディープラーニングフレームワークを提案し、解釈可能な結果を提供し、臨床上の事前知識を活用する。 Polar-Netは既存の最先端の手法よりも優れており,網膜血管変化とADとの関連性について,より貴重な病理学的証拠を提供する。
論文参考訳（メタデータ） (2023-11-10T11:49:49Z)
XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文参考訳（メタデータ） (2023-06-13T17:59:59Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders [50.689585476660554]
本稿では,正対損失緩和とランダムな文サンプリングを含む新たな微調整手法を提案する。提案手法は,胸部X線データセットと3つの事前訓練モデル間のゼロショット病理分類を一貫して改善する。
論文参考訳（メタデータ） (2022-12-14T06:04:18Z)
Data-Efficient Vision Transformers for Multi-Label Disease Classification on Chest Radiographs [55.78588835407174]
視覚変換器(ViT)は一般的な画像の分類性能が高いにもかかわらず、このタスクには適用されていない。 ViTは、畳み込みではなくパッチベースの自己アテンションに依存しており、CNNとは対照的に、ローカル接続に関する事前の知識は存在しない。以上の結果から,ViTとCNNのパフォーマンスはViTの利点に匹敵するものの,DeiTsはトレーニング用に適度に大規模なデータセットが利用可能であれば,前者よりも優れることがわかった。
論文参考訳（メタデータ） (2022-08-17T09:07:45Z)
Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文参考訳（メタデータ） (2021-10-25T14:15:57Z)
Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文参考訳（メタデータ） (2021-02-26T02:29:30Z)
Explaining Clinical Decision Support Systems in Medical Imaging using Cycle-Consistent Activation Maximization [112.2628296775395]
ディープニューラルネットワークを用いた臨床意思決定支援は、着実に関心が高まりつつあるトピックとなっている。臨床医は、その根底にある意思決定プロセスが不透明で理解しにくいため、この技術の採用をためらうことが多い。そこで我々は,より小さなデータセットであっても,分類器決定の高品質な可視化を生成するCycleGANアクティベーションに基づく,新たな意思決定手法を提案する。
論文参考訳（メタデータ） (2020-10-09T14:39:27Z)
Weakly supervised multiple instance learning histopathological tumor segmentation [51.085268272912415]
スライド画像全体のセグメント化のための弱教師付きフレームワークを提案する。トレーニングモデルに複数のインスタンス学習スキームを利用する。提案するフレームワークは,The Cancer Genome AtlasとPatchCamelyonデータセットのマルチロケーションとマルチ中心公開データに基づいて評価されている。
論文参考訳（メタデータ） (2020-04-10T13:12:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。