論文の概要: Navigating Gigapixel Pathology Images with Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2511.19652v1
- Date: Mon, 24 Nov 2025 19:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.134316
- Title: Navigating Gigapixel Pathology Images with Large Multimodal Models
- Title(参考訳): 巨大マルチモーダルモデルを用いたギガピクセル画像のナビゲーション
- Authors: Thomas A. Buckley, Kian R. Weihrauch, Katherine Latham, Andrew Z. Zhou, Padmini A. Manrai, Arjun K. Manrai,
- Abstract要約: 汎用大規模マルチモーダルモデル(LMM)は、一般的に医療画像の解釈において不十分または不確定な性能を示している。
病理医のように,LMMが画像全体を反復的にナビゲートできる最初のフレームワークであるgigapixel Image Agent for Navigating tissue (GIANT)を紹介した。
我々はMultiPathQAを用いて,従来のパッチやサムネイルベースのベースラインよりもはるかに優れたエージェントシステムを示す。
- 参考スコア(独自算出の注目度): 0.649324006529432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite being widely used to support clinical care, general-purpose large multimodal models (LMMs) have generally shown poor or inconclusive performance in medical image interpretation, particularly in pathology, where gigapixel images are used. However, prior studies have used either low-resolution thumbnails or random patches, which likely underestimated model performance. Here, we ask whether LMMs can be adapted to reason coherently and accurately in the evaluation of such images. In this study, we introduce Gigapixel Image Agent for Navigating Tissue (GIANT), the first framework that allows LMMs to iteratively navigate whole-slide images (WSIs) like a pathologist. Accompanying GIANT, we release MultiPathQA, a new benchmark, which comprises 934 WSI-level questions, encompassing five clinically-relevant tasks ranging from cancer diagnosis to open-ended reasoning. MultiPathQA also includes 128 questions, authored by two professional pathologists, requiring direct slide interpretation. Using MultiPathQA, we show that our simple agentic system substantially outperforms conventional patch- and thumbnail-based baselines, approaching or surpassing the performance of specialized models trained on millions of images. For example, on pathologist-authored questions, GPT-5 with GIANT achieves 62.5% accuracy, outperforming specialist pathology models such as TITAN (43.8%) and SlideChat (37.5%). Our findings reveal the strengths and limitations of current foundation models and ground future development of LMMs for expert reasoning in pathology.
- Abstract(参考訳): 臨床治療に広く用いられているにもかかわらず、汎用大規模マルチモーダルモデル(LMM)は一般的に医学的画像解釈において、特にギガピクセル画像を使用する病理学において、貧弱または不確定な性能を示す。
しかし、以前の研究では低解像度のサムネイルやランダムパッチが用いられており、おそらくモデルの性能は過小評価されている。
本稿では,これらの画像の評価において,LMMを協調的かつ正確に理性に適応できるかどうかを問う。
本研究では,病理医のようにLMMがWSIを反復的にナビゲートできる最初のフレームワークであるgigapixel Image Agent for Navigating tissue (GIANT)を紹介した。
GIANTを伴い,934のWSIレベルの質問を含む新しいベンチマークであるMultiPathQAを作成した。
MultiPathQAはまた、2人の専門的な病理学者によって書かれた128の質問も含んでいる。
我々はMultiPathQAを用いて,従来のパッチやサムネイルベースのベースラインよりもはるかに優れたエージェントシステムを示し,数百万の画像で訓練された特殊なモデルの性能に近づいたり超えたりした。
例えば、病理学者による質問では、GIANTによるGPT-5の精度は62.5%であり、TITAN(43.8%)やSlideChat(37.5%)といった専門的な病理モデルよりも優れている。
本研究は,病理学における専門的推論のための基礎モデルの長所と短所とLMMの基盤的開発について明らかにした。
関連論文リスト
- MedBLINK: Probing Basic Perception in Multimodal Language Models for Medicine [12.333678882957377]
このような知覚能力に対してこれらのモデルを探索するためのベンチマークであるMedblinkを紹介する。
メドブリンクは、複数の画像モダリティと解剖学的領域にまたがる8つの臨床的に有意義なタスクにまたがっており、1,605枚の画像に対して1,429個の多重選択質問を出している。
ヒトのアノテータは96.4%の精度を達成しているが、最高のパフォーマンスモデルは65%にしか達していない。
論文 参考訳(メタデータ) (2025-08-04T23:19:18Z) - Evidence-based diagnostic reasoning with multi-agent copilot for human pathology [7.976907866539546]
現在の計算病理学におけるMLLM(Multimodal Large Language Model)は限界に直面している。
そこで我々は,ヒトの病理に特化して設計された新しいMLLMであるPathChat+を紹介した。
また、PathChat+を利用した推論可能なマルチエージェントAIシステムであるSlideSeekを紹介し、ギガピクセル全体の画像を自律的に評価する。
論文 参考訳(メタデータ) (2025-06-26T03:02:16Z) - MedFrameQA: A Multi-Image Medical VQA Benchmark for Clinical Reasoning [24.9872402922819]
既存の医療用VQAベンチマークは、主にシングルイメージ分析に焦点を当てている。
医療用VQAにおけるマルチイメージ推論を明示的に評価する最初のベンチマークであるMedFrameQAを紹介する。
論文 参考訳(メタデータ) (2025-05-22T17:46:11Z) - PolyPath: Adapting a Large Multimodal Model for Multi-slide Pathology Report Generation [18.734721574528702]
最大4万768ピクセルの画像パッチから10倍の倍率で複数の全スライディング画像から診断を生成できることを実証する。
専門家の病理学者による評価では、生成された報告テキストは臨床的に正確であり、元の報告と同等か、あるいは好意的であることが示されている。
論文 参考訳(メタデータ) (2025-02-14T20:09:13Z) - PLUTO: Pathology-Universal Transformer [4.920983796208486]
そこで我々はPathoLogy Universal TransfOrmer (PLUTO)を提案する。
我々はPLUTOの出力埋め込みを利用したタスク固有の適応ヘッドを,病的規模にまたがるタスクに設計する。
PLUTOは既存のタスク固有のベースラインや病理学固有の基盤モデルに適合するか、性能を向上する。
論文 参考訳(メタデータ) (2024-05-13T16:40:17Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Large-scale Long-tailed Disease Diagnosis on Radiology Images [51.453990034460304]
RadDiagは、様々なモダリティと解剖学にわたる2Dおよび3D入力をサポートする基礎モデルである。
私たちのデータセットであるRP3D-DiagDSは、5,568の障害をカバーする195,010のスキャンで40,936の症例を含む。
論文 参考訳(メタデータ) (2023-12-26T18:20:48Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。