論文の概要: Investigating Zero-Shot Diagnostic Pathology in Vision-Language Models with Efficient Prompt Design
- arxiv url: http://arxiv.org/abs/2505.00134v1
- Date: Wed, 30 Apr 2025 19:01:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.158351
- Title: Investigating Zero-Shot Diagnostic Pathology in Vision-Language Models with Efficient Prompt Design
- Title(参考訳): 効率的なプロンプト設計による視覚言語モデルにおけるゼロショット診断法の検討
- Authors: Vasudev Sharma, Ahmed Alagha, Abdelhakim Khellaf, Vincent Quoc-Huy Trinh, Mahdi S. Hosseini,
- Abstract要約: 病理組織学における視覚言語モデル(VLM)の3つの状態の体系的調査と解析を行った。
我々は、ドメインの特異性、解剖学的精度、命令フレーミング、出力制約を体系的に変化させる包括的なプロンプトエンジニアリングフレームワークを開発する。
以上の結果から,正確な解剖学的基準が得られた場合,CONCHモデルが最も精度が高いため,迅速な工学がモデル性能に大きく影響することが示唆された。
- 参考スコア(独自算出の注目度): 7.509731425152396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have gained significant attention in computational pathology due to their multimodal learning capabilities that enhance big-data analytics of giga-pixel whole slide image (WSI). However, their sensitivity to large-scale clinical data, task formulations, and prompt design remains an open question, particularly in terms of diagnostic accuracy. In this paper, we present a systematic investigation and analysis of three state of the art VLMs for histopathology, namely Quilt-Net, Quilt-LLAVA, and CONCH, on an in-house digestive pathology dataset comprising 3,507 WSIs, each in giga-pixel form, across distinct tissue types. Through a structured ablative study on cancer invasiveness and dysplasia status, we develop a comprehensive prompt engineering framework that systematically varies domain specificity, anatomical precision, instructional framing, and output constraints. Our findings demonstrate that prompt engineering significantly impacts model performance, with the CONCH model achieving the highest accuracy when provided with precise anatomical references. Additionally, we identify the critical importance of anatomical context in histopathological image analysis, as performance consistently degraded when reducing anatomical precision. We also show that model complexity alone does not guarantee superior performance, as effective domain alignment and domain-specific training are critical. These results establish foundational guidelines for prompt engineering in computational pathology and highlight the potential of VLMs to enhance diagnostic accuracy when properly instructed with domain-appropriate prompts.
- Abstract(参考訳): 視覚言語モデル(VLM)は、ギガピクセル全体のスライド画像(WSI)のビッグデータ解析を強化するマルチモーダル学習能力により、計算病理学において大きな注目を集めている。
しかしながら、大規模な臨床データ、タスクの定式化、迅速な設計に対する感度は、特に診断精度の観点から、未解決の問題である。
本稿では,3,507個のWSIをそれぞれ異なる組織タイプに分散した内部消化器疾患データセットを用いて,最先端の3種類のVLM(Qult-Net,Qult-LLAVA,CONCH)の組織学的検討と解析を行った。
本研究は, 癌浸潤性および異形成性状態に関する構造化的研究を通じて, ドメイン特異性, 解剖学的精度, 命令フレーミング, 出力制約を体系的に変化させる包括的プロンプトエンジニアリングフレームワークを開発した。
以上の結果から,正確な解剖学的基準が得られた場合,CONCHモデルが最も精度が高いため,迅速な工学がモデル性能に大きく影響することが示唆された。
また,解剖学的画像解析における解剖学的文脈の重要性も確認した。
また、効果的なドメインアライメントとドメイン固有のトレーニングが不可欠であるため、モデルの複雑さだけでは優れたパフォーマンスを保証できないことも示しています。
これらの結果は、計算病理学におけるプロンプト工学の基礎的ガイドラインを確立し、ドメインに適したプロンプトで適切に指示された場合の診断精度を高めるために、VLMの可能性を強調した。
関連論文リスト
- Comparative Evaluation of Radiomics and Deep Learning Models for Disease Detection in Chest Radiography [0.0]
本研究は,胸部X線撮影における疾患検出のための放射線治療と深層学習によるアプローチの包括的評価である。
新型コロナウイルス、肺不透明症、ウイルス性肺炎に焦点が当てられている。
臨床実習におけるAI駆動診断ツールの統合について報告する。
論文 参考訳(メタデータ) (2025-04-16T16:54:37Z) - Vision-Language Models for Acute Tuberculosis Diagnosis: A Multimodal Approach Combining Imaging and Clinical Data [0.0]
本研究では,SIGLIPとGemma-3bアーキテクチャを併用したVLM(Vision-Language Model)を提案する。
VLMは胸部X線からの視覚データを臨床コンテキストと組み合わせて、詳細なコンテキスト認識診断レポートを生成する。
結石,空洞,結節などの急性TBの病態は,高い精度とリコールで検出された。
論文 参考訳(メタデータ) (2025-03-17T14:08:35Z) - Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images [7.048241543461529]
ゼロショット組織像分類におけるこれらの課題に対処するため, MR-PHE(Multi-Resolution Prompt-Guided Hybrid Embedding)と呼ばれる新しいフレームワークを提案する。
我々は,グローバルな画像埋め込みと重み付けされたパッチ埋め込みを統合したハイブリッドな埋め込み戦略を導入する。
類似性に基づくパッチ重み付け機構は、クラス埋め込みとの関連性に基づいて、アテンションのような重み付けをパッチに割り当てる。
論文 参考訳(メタデータ) (2025-03-13T12:18:37Z) - Doctor-in-the-Loop: An Explainable, Multi-View Deep Learning Framework for Predicting Pathological Response in Non-Small Cell Lung Cancer [0.6800826356148091]
非小細胞肺癌(NSCLC)はいまだに世界的な健康上の課題である。
専門家主導のドメイン知識と説明可能な人工知能技術を統合する新しいフレームワークであるDoctor-in-the-Loopを提案する。
アプローチでは段階的なマルチビュー戦略を採用し,より広いコンテキスト特徴からより微細で病変特異的な詳細まで,モデルの焦点を段階的に洗練する。
論文 参考訳(メタデータ) (2025-02-21T16:35:30Z) - Self-Explaining Hypergraph Neural Networks for Diagnosis Prediction [45.89562183034469]
既存のディープラーニング診断予測モデルと本質的な解釈性は、過去の診断や病院訪問の度に注意重みを割り当てることが多い。
我々は、パーソナライズされた簡潔で忠実な説明を提供するように設計された、自己説明型ハイパーグラフニューラルネットワークモデルSHyを紹介する。
SHyは高次疾患の相互作用を捉え、パーソナライズされた説明として異なる時間的表現型を抽出する。
論文 参考訳(メタデータ) (2025-02-15T06:33:02Z) - Efficient and Comprehensive Feature Extraction in Large Vision-Language Model for Clinical Pathology Analysis [34.199766079609795]
病理診断は疾患の特徴の決定、治療指導、予後評価に不可欠である。
従来の純粋な視覚モデルは、冗長な特徴抽出の課題に直面している。
既存の視覚言語モデル(LVLM)は、入力解像度の制約によって制限され、その効率と精度を損なう。
課題誘導型機能拡張と課題誘導型詳細機能補完の2つの革新的戦略を提案する。
論文 参考訳(メタデータ) (2024-12-12T18:07:23Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Super-resolution of biomedical volumes with 2D supervision [84.5255884646906]
超解像のための仮設スライス拡散は、生物学的標本のすべての空間次元にわたるデータ生成分布の固有同値性を利用する。
我々は,高解像度2次元画像の高速取得を特徴とするSliceRの組織学的刺激(SRH)への応用に着目する。
論文 参考訳(メタデータ) (2024-04-15T02:41:55Z) - Shifting Focus: From Global Semantics to Local Prominent Features in Swin-Transformer for Knee Osteoarthritis Severity Assessment [42.09313885494969]
我々はSwin Transformerの能力を利用して階層的な枠組みを通じて画像内の空間的依存関係を識別する。
我々の新しい貢献は、局所的な特徴表現を精細化し、分類器の最終的な分布に特化することにある。
Knee osteoArthritis (KOA) グレード分類のための2つの確立されたベンチマークを広範囲に検証した結果,本モデルは有意な堅牢性と精度を示した。
論文 参考訳(メタデータ) (2024-03-15T01:09:58Z) - Learning Through Guidance: Knowledge Distillation for Endoscopic Image
Classification [40.366659911178964]
内視鏡は消化管(GI)の根底にある異常を同定する上で重要な役割を担っている。
ディープラーニング、特にCNN(Convolution Neural Networks)は、従来の機能エンジニアリングを使わずに自動機能学習を実行するように設計されている。
KDに基づく3つの学習フレームワーク、応答ベース、特徴ベース、関係ベースメカニズムについて検討し、関係ベース学習を支援するために、新しい多面的注意型特徴融合機構を導入する。
論文 参考訳(メタデータ) (2023-08-17T02:02:11Z) - Trustworthy Visual Analytics in Clinical Gait Analysis: A Case Study for
Patients with Cerebral Palsy [43.55994393060723]
gaitXplorerは、CP関連歩行パターンの分類のための視覚分析手法である。
Grad-CAMは、機械学習の分類の説明のために、よく確立された説明可能な人工知能アルゴリズムである。
論文 参考訳(メタデータ) (2022-08-10T09:21:28Z) - OncoPetNet: A Deep Learning based AI system for mitotic figure counting
on H&E stained whole slide digital images in a large veterinary diagnostic
lab setting [47.38796928990688]
OncoPetNetの開発において,複数の最先端ディープラーニング技術を用いて病理組織像分類と有糸体像検出を行った。
提案システムは,14種類の癌に対して,ヒトのエキスパートベースラインと比較して,41例の有糸分裂計数性能を有意に向上させた。
デプロイでは、2つのセンターで1日3,323枚のデジタル全スライド画像を処理する高スループット獣医診断サービスにおいて、効果的な0.27分/スライダー推論が達成された。
論文 参考訳(メタデータ) (2021-08-17T20:01:33Z) - Deep Implicit Statistical Shape Models for 3D Medical Image Delineation [47.78425002879612]
解剖学的構造の3次元デライン化は、医用画像解析の基本的な目標である。
ディープラーニング以前は、解剖学的制約を課し高品質の表面を作り出す統計的形状モデルはコア技術だった。
我々は,CNNの表現力とSSMの頑健さを合体させるデライン化の新しい手法であるディープ暗黙的統計的形状モデル(DISSMs)を提案する。
論文 参考訳(メタデータ) (2021-04-07T01:15:06Z) - Spatio-spectral deep learning methods for in-vivo hyperspectral
laryngeal cancer detection [49.32653090178743]
頭頸部腫瘍の早期発見は患者の生存に不可欠である。
ハイパースペクトルイメージング(HSI)は頭頸部腫瘍の非侵襲的検出に用いられる。
HSIに基づく喉頭癌診断のための複数の深層学習手法を提案する。
論文 参考訳(メタデータ) (2020-04-21T17:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。