論文の概要: PathFound: An Agentic Multimodal Model Activating Evidence-seeking Pathological Diagnosis
- arxiv url: http://arxiv.org/abs/2512.23545v1
- Date: Mon, 29 Dec 2025 15:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.560213
- Title: PathFound: An Agentic Multimodal Model Activating Evidence-seeking Pathological Diagnosis
- Title(参考訳): PathFound: Evidence-seeking 病的診断を活性化するエージェントマルチモーダルモデル
- Authors: Shengyi Hua, Jianfeng Wu, Tianle Shen, Kangzhe Hu, Zhongzhen Huang, Shujuan Ni, Zhihong Zhang, Yuan Li, Zhe Wang, Xiaofan Zhang,
- Abstract要約: PathFoundは、病理診断におけるエビデンス検索推論を支援するために設計されたエージェントマルチモーダルモデルである。
PathFoundは様々な臨床シナリオで最先端の診断性能を達成する。
- 参考スコア(独自算出の注目度): 13.503111478218434
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent pathological foundation models have substantially advanced visual representation learning and multimodal interaction. However, most models still rely on a static inference paradigm in which whole-slide images are processed once to produce predictions, without reassessment or targeted evidence acquisition under ambiguous diagnoses. This contrasts with clinical diagnostic workflows that refine hypotheses through repeated slide observations and further examination requests. We propose PathFound, an agentic multimodal model designed to support evidence-seeking inference in pathological diagnosis. PathFound integrates the power of pathological visual foundation models, vision-language models, and reasoning models trained with reinforcement learning to perform proactive information acquisition and diagnosis refinement by progressing through the initial diagnosis, evidence-seeking, and final decision stages. Across several large multimodal models, adopting this strategy consistently improves diagnostic accuracy, indicating the effectiveness of evidence-seeking workflows in computational pathology. Among these models, PathFound achieves state-of-the-art diagnostic performance across diverse clinical scenarios and demonstrates strong potential to discover subtle details, such as nuclear features and local invasions.
- Abstract(参考訳): 最近の病理基盤モデルでは、視覚的表現学習とマルチモーダル相互作用が大幅に進歩している。
しかし、ほとんどのモデルは、再評価や、曖昧な診断の下で標的となる証拠を取得せずに、1度だけ全スライド画像を処理して予測する静的推論パラダイムに依存している。
これは、繰り返しのスライド観察とさらなる検査要求によって仮説を洗練させる臨床診断ワークフローとは対照的である。
本稿では,病理診断におけるエビデンス検索推論を支援するエージェントマルチモーダルモデルPathFoundを提案する。
PathFoundは、病的視覚基盤モデル、視覚言語モデル、強化学習で訓練された推論モデルの力を統合し、初期診断、エビデンス・シーキング、最終決定段階を経て、積極的な情報取得と診断改善を行う。
いくつかの大規模マルチモーダルモデルにおいて、この戦略は診断精度を一貫して改善し、計算病理学におけるエビデンス検索ワークフローの有効性を示す。
これらのモデルの中で、PathFoundは様々な臨床シナリオにまたがって最先端の診断性能を達成し、核の特徴や局所的な侵入といった微妙な詳細を発見する強力な可能性を示している。
関連論文リスト
- AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - PathoHR: Hierarchical Reasoning for Vision-Language Models in Pathology [3.459714932882085]
現在の視覚言語(VL)モデルは、構造化された病理報告の解釈に必要な複雑な推論を捉えるのに苦労することが多い。
病理領域内での階層的意味理解と構成的推論におけるVLモデルの能力を評価するために設計された新しいベンチマークであるPathoHR-Benchを提案する。
さらに、マルチモーダルコントラスト学習のための拡張および摂動サンプルを生成する、病理特異的なVLトレーニングスキームを導入する。
論文 参考訳(メタデータ) (2025-09-07T15:42:38Z) - DiagR1: A Vision-Language Model Trained via Reinforcement Learning for Digestive Pathology Diagnosis [7.5173141954286775]
内視鏡的所見と診断結果の両方を含む大規模な消化管病理データセットを構築した。
この設計は、画像特有の特徴をよりよく捉え、生成時のセマンティック一貫性を維持するためにモデルを導く。
臨床関連度は18.7%, 構造的完全性は32.4%改善し, 診断誤差は41.2%減少した。
論文 参考訳(メタデータ) (2025-07-24T14:12:20Z) - CPathAgent: An Agent-based Foundation Model for Interpretable High-Resolution Pathology Image Analysis Mimicking Pathologists' Diagnostic Logic [23.488576700623966]
我々は、病理医の診断ワークフローを模倣する革新的なエージェントベースのアプローチであるCPathAgentを紹介する。
我々は、パッチレベル、リージョンレベル、WSIレベルの機能を単一のモデルに統合するマルチステージトレーニング戦略を開発します。
PathMMU-HR2は、大規模領域分析のための最初のエキスパート検証ベンチマークである。
論文 参考訳(メタデータ) (2025-05-26T20:22:19Z) - Empowering Medical Multi-Agents with Clinical Consultation Flow for Dynamic Diagnosis [20.59719567178192]
コンサルテーションプロセス全体をシミュレートするために,コンサルテーションフローと強化学習(RL)にインスパイアされたマルチエージェントフレームワークを提案する。
本手法は,臨床相談フローと医用教科書から構築した階層的行動集合を取り入れ,意思決定過程を効果的に指導する。
この戦略はエージェントのインタラクションを改善し、動的状態に基づいたアクションの適応と最適化を可能にする。
論文 参考訳(メタデータ) (2025-03-19T08:47:18Z) - Self-Explaining Hypergraph Neural Networks for Diagnosis Prediction [45.89562183034469]
既存のディープラーニング診断予測モデルと本質的な解釈性は、過去の診断や病院訪問の度に注意重みを割り当てることが多い。
我々は、パーソナライズされた簡潔で忠実な説明を提供するように設計された、自己説明型ハイパーグラフニューラルネットワークモデルSHyを紹介する。
SHyは高次疾患の相互作用を捉え、パーソナライズされた説明として異なる時間的表現型を抽出する。
論文 参考訳(メタデータ) (2025-02-15T06:33:02Z) - Continually Evolved Multimodal Foundation Models for Cancer Prognosis [50.43145292874533]
がん予後は、患者の予後と生存率を予測する重要なタスクである。
これまでの研究では、臨床ノート、医療画像、ゲノムデータなどの多様なデータモダリティを統合し、補完的な情報を活用している。
既存のアプローチには2つの大きな制限がある。まず、各病院の患者記録など、各種のトレーニングに新しく到着したデータを組み込むことに苦慮する。
第二に、ほとんどのマルチモーダル統合手法は単純化された結合やタスク固有のパイプラインに依存しており、モダリティ間の複雑な相互依存を捉えることができない。
論文 参考訳(メタデータ) (2025-01-30T06:49:57Z) - Efficient and Comprehensive Feature Extraction in Large Vision-Language Model for Pathology Analysis [37.11302829771659]
大規模視覚言語モデル(LVLM)は、入力解像度の制約によって制限され、病理画像解析の効率と精度を損なう。
課題誘導型機能拡張と課題誘導型詳細機能補完の2つの革新的戦略を提案する。
OmniPathは診断精度と効率において既存の方法よりも優れていた。
論文 参考訳(メタデータ) (2024-12-12T18:07:23Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。