論文の概要: PathMR: Multimodal Visual Reasoning for Interpretable Pathology Diagnosis
- arxiv url: http://arxiv.org/abs/2508.20851v1
- Date: Thu, 28 Aug 2025 14:46:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.457788
- Title: PathMR: Multimodal Visual Reasoning for Interpretable Pathology Diagnosis
- Title(参考訳): PathMR : 病的診断のためのマルチモーダルビジュアル推論
- Authors: Ye Zhang, Yu Zhou, Jingwen Qi, Yongbing Zhang, Simon Puettmann, Finn Wichmann, Larissa Pereira Ferreira, Lara Sichward, Julius Keyl, Sylvia Hartmann, Shuo Zhao, Hongxiao Wang, Xiaowei Xu, Jianxu Chen,
- Abstract要約: 病理画像解析のための細胞レベルでのマルチモーダルビジュアル推論フレームワークであるPathMRを提案する。
PathMRは、テキスト生成品質、セグメンテーション精度、モーダルアライメントにおいて、最先端の視覚的推論手法よりも一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 9.728322291979564
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep learning based automated pathological diagnosis has markedly improved diagnostic efficiency and reduced variability between observers, yet its clinical adoption remains limited by opaque model decisions and a lack of traceable rationale. To address this, recent multimodal visual reasoning architectures provide a unified framework that generates segmentation masks at the pixel level alongside semantically aligned textual explanations. By localizing lesion regions and producing expert style diagnostic narratives, these models deliver the transparent and interpretable insights necessary for dependable AI assisted pathology. Building on these advancements, we propose PathMR, a cell-level Multimodal visual Reasoning framework for Pathological image analysis. Given a pathological image and a textual query, PathMR generates expert-level diagnostic explanations while simultaneously predicting cell distribution patterns. To benchmark its performance, we evaluated our approach on the publicly available PathGen dataset as well as on our newly developed GADVR dataset. Extensive experiments on these two datasets demonstrate that PathMR consistently outperforms state-of-the-art visual reasoning methods in text generation quality, segmentation accuracy, and cross-modal alignment. These results highlight the potential of PathMR for improving interpretability in AI-driven pathological diagnosis. The code will be publicly available in https://github.com/zhangye-zoe/PathMR.
- Abstract(参考訳): ディープラーニングに基づく自動病理診断は、診断効率を著しく改善し、観察者間の多様性を低下させたが、その臨床応用は、不透明なモデル決定と追跡可能な理論的根拠の欠如によって制限されている。
これを解決するために、近年のマルチモーダル視覚推論アーキテクチャは、セグメンテーションマスクをピクセルレベルで生成する統一的なフレームワークを提供する。
病変領域をローカライズし、専門家スタイルの診断物語を作成することで、これらのモデルは、信頼できるAI補助病理学に必要な透明で解釈可能な洞察を提供する。
これらの進歩に基づいて,病理画像解析のための細胞レベルでのマルチモーダル視覚共鳴フレームワークPathMRを提案する。
病理画像とテキストクエリが与えられた後、PathMRは、細胞分布パターンを同時に予測しながら、専門家レベルの診断説明を生成する。
その性能をベンチマークするために、我々は利用可能なPathGenデータセットと、新たに開発したGADVRデータセットにアプローチを評価した。
これらの2つのデータセットに対する大規模な実験により、PathMRはテキスト生成の品質、セグメンテーション精度、モーダルアライメントにおいて、最先端の視覚的推論手法より一貫して優れていることが示された。
これらの結果から,AIによる病理診断におけるPathMRの有用性が示唆された。
コードはhttps://github.com/zhangye-zoe/PathMRで公開される。
関連論文リスト
- MedVQA-TREE: A Multimodal Reasoning and Retrieval Framework for Sarcopenia Prediction [1.7775777785480917]
MedVQA-TREEは階層的な画像解釈モジュール、ゲート機能レベルの融合機構、新しいマルチホップ・マルチクエリ検索戦略を統合したフレームワークである。
ゲート融合機構は、視覚的特徴をテキストクエリと選択的に統合し、臨床知識は、PubMedにアクセスするUMLS誘導パイプラインとサルコピア固有の外部知識ベースを介して検索する。
診断精度は99%まで向上し、従来の最先端の手法を10%以上上回った。
論文 参考訳(メタデータ) (2025-08-26T13:31:01Z) - Patho-AgenticRAG: Towards Multimodal Agentic Retrieval-Augmented Generation for Pathology VLMs via Reinforcement Learning [9.075284970935341]
Patho-AgenticRAGは、権威的な病理教科書からページレベルの埋め込みに基づいて構築されたデータベースである。
共同でテキストイメージ検索をサポートし、クエリされたテキストと関連する視覚的手がかりの両方を含む教科書ページの直接検索を可能にする。
Patho-AgenticRAGは、多重選択診断や視覚的質問応答といった複雑な病態タスクにおいて、既存のマルチモーダルモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-04T10:03:08Z) - PathVLM-R1: A Reinforcement Learning-Driven Reasoning Model for Pathology Visual-Language Tasks [15.497221591506625]
病理画像に特化して設計された視覚言語モデルPathVLM-R1を提案する。
我々は,Qwen2.5-VL-7B-インストラクタをベースとして,厳密に設計したポストトレーニング戦略により,病理的タスクのパフォーマンスを向上させた。
論文 参考訳(メタデータ) (2025-04-12T15:32:16Z) - PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。
本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。
本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2025-04-09T14:58:21Z) - PathVG: A New Benchmark and Dataset for Pathology Visual Grounding [45.21597220882424]
そこで我々はPathVG(Pathology Visual Grounding)と呼ばれる新しいベンチマークを提案する。
実験の結果,病理表現の根底にある暗黙的な情報に最大の課題があることが判明した。
提案手法は,PathVGベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-02-28T09:13:01Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Explaining Clinical Decision Support Systems in Medical Imaging using
Cycle-Consistent Activation Maximization [112.2628296775395]
ディープニューラルネットワークを用いた臨床意思決定支援は、着実に関心が高まりつつあるトピックとなっている。
臨床医は、その根底にある意思決定プロセスが不透明で理解しにくいため、この技術の採用をためらうことが多い。
そこで我々は,より小さなデータセットであっても,分類器決定の高品質な可視化を生成するCycleGANアクティベーションに基づく,新たな意思決定手法を提案する。
論文 参考訳(メタデータ) (2020-10-09T14:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。