論文の概要: PathFound: An Agentic Multimodal Model Activating Evidence-seeking Pathological Diagnosis
- arxiv url: http://arxiv.org/abs/2512.23545v1
- Date: Mon, 29 Dec 2025 15:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.560213
- Title: PathFound: An Agentic Multimodal Model Activating Evidence-seeking Pathological Diagnosis
- Title(参考訳): PathFound: Evidence-seeking 病的診断を活性化するエージェントマルチモーダルモデル
- Authors: Shengyi Hua, Jianfeng Wu, Tianle Shen, Kangzhe Hu, Zhongzhen Huang, Shujuan Ni, Zhihong Zhang, Yuan Li, Zhe Wang, Xiaofan Zhang,
- Abstract要約: PathFoundは、病理診断におけるエビデンス検索推論を支援するために設計されたエージェントマルチモーダルモデルである。
PathFoundは様々な臨床シナリオで最先端の診断性能を達成する。
- 参考スコア(独自算出の注目度): 13.503111478218434
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent pathological foundation models have substantially advanced visual representation learning and multimodal interaction. However, most models still rely on a static inference paradigm in which whole-slide images are processed once to produce predictions, without reassessment or targeted evidence acquisition under ambiguous diagnoses. This contrasts with clinical diagnostic workflows that refine hypotheses through repeated slide observations and further examination requests. We propose PathFound, an agentic multimodal model designed to support evidence-seeking inference in pathological diagnosis. PathFound integrates the power of pathological visual foundation models, vision-language models, and reasoning models trained with reinforcement learning to perform proactive information acquisition and diagnosis refinement by progressing through the initial diagnosis, evidence-seeking, and final decision stages. Across several large multimodal models, adopting this strategy consistently improves diagnostic accuracy, indicating the effectiveness of evidence-seeking workflows in computational pathology. Among these models, PathFound achieves state-of-the-art diagnostic performance across diverse clinical scenarios and demonstrates strong potential to discover subtle details, such as nuclear features and local invasions.
- Abstract(参考訳): 最近の病理基盤モデルでは、視覚的表現学習とマルチモーダル相互作用が大幅に進歩している。
しかし、ほとんどのモデルは、再評価や、曖昧な診断の下で標的となる証拠を取得せずに、1度だけ全スライド画像を処理して予測する静的推論パラダイムに依存している。
これは、繰り返しのスライド観察とさらなる検査要求によって仮説を洗練させる臨床診断ワークフローとは対照的である。
本稿では,病理診断におけるエビデンス検索推論を支援するエージェントマルチモーダルモデルPathFoundを提案する。
PathFoundは、病的視覚基盤モデル、視覚言語モデル、強化学習で訓練された推論モデルの力を統合し、初期診断、エビデンス・シーキング、最終決定段階を経て、積極的な情報取得と診断改善を行う。
いくつかの大規模マルチモーダルモデルにおいて、この戦略は診断精度を一貫して改善し、計算病理学におけるエビデンス検索ワークフローの有効性を示す。
これらのモデルの中で、PathFoundは様々な臨床シナリオにまたがって最先端の診断性能を達成し、核の特徴や局所的な侵入といった微妙な詳細を発見する強力な可能性を示している。
関連論文リスト
- RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - DiagR1: A Vision-Language Model Trained via Reinforcement Learning for Digestive Pathology Diagnosis [7.5173141954286775]
内視鏡的所見と診断結果の両方を含む大規模な消化管病理データセットを構築した。
この設計は、画像特有の特徴をよりよく捉え、生成時のセマンティック一貫性を維持するためにモデルを導く。
臨床関連度は18.7%, 構造的完全性は32.4%改善し, 診断誤差は41.2%減少した。
論文 参考訳(メタデータ) (2025-07-24T14:12:20Z) - CPathAgent: An Agent-based Foundation Model for Interpretable High-Resolution Pathology Image Analysis Mimicking Pathologists' Diagnostic Logic [23.488576700623966]
我々は、病理医の診断ワークフローを模倣する革新的なエージェントベースのアプローチであるCPathAgentを紹介する。
我々は、パッチレベル、リージョンレベル、WSIレベルの機能を単一のモデルに統合するマルチステージトレーニング戦略を開発します。
PathMMU-HR2は、大規模領域分析のための最初のエキスパート検証ベンチマークである。
論文 参考訳(メタデータ) (2025-05-26T20:22:19Z) - Self-Explaining Hypergraph Neural Networks for Diagnosis Prediction [45.89562183034469]
既存のディープラーニング診断予測モデルと本質的な解釈性は、過去の診断や病院訪問の度に注意重みを割り当てることが多い。
我々は、パーソナライズされた簡潔で忠実な説明を提供するように設計された、自己説明型ハイパーグラフニューラルネットワークモデルSHyを紹介する。
SHyは高次疾患の相互作用を捉え、パーソナライズされた説明として異なる時間的表現型を抽出する。
論文 参考訳(メタデータ) (2025-02-15T06:33:02Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - Efficient and Comprehensive Feature Extraction in Large Vision-Language Model for Pathology Analysis [37.11302829771659]
大規模視覚言語モデル(LVLM)は、入力解像度の制約によって制限され、病理画像解析の効率と精度を損なう。
課題誘導型機能拡張と課題誘導型詳細機能補完の2つの革新的戦略を提案する。
OmniPathは診断精度と効率において既存の方法よりも優れていた。
論文 参考訳(メタデータ) (2024-12-12T18:07:23Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。