論文の概要: PathAgent: Toward Interpretable Analysis of Whole-slide Pathology Images via Large Language Model-based Agentic Reasoning
- arxiv url: http://arxiv.org/abs/2511.17052v1
- Date: Fri, 21 Nov 2025 08:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.945126
- Title: PathAgent: Toward Interpretable Analysis of Whole-slide Pathology Images via Large Language Model-based Agentic Reasoning
- Title(参考訳): PathAgent:大規模言語モデルに基づくエージェント推論による全スライディング画像の解釈解析に向けて
- Authors: Jingyun Chen, Linghan Cai, Zhikang Wang, Yi Huang, Songhan Jiang, Shenjin Huang, Hongpeng Wang, Yongbing Zhang,
- Abstract要約: PathAgentはトレーニングフリーで大規模言語モデル(LLM)に基づくエージェントフレームワークで、人間の専門家の反射的、段階的分析的アプローチをエミュレートする。
観察と決定のシーケンス全体が明確な連鎖を形成し、完全に解釈可能な予測をもたらす。
- 参考スコア(独自算出の注目度): 17.067199015601954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analyzing whole-slide images (WSIs) requires an iterative, evidence-driven reasoning process that parallels how pathologists dynamically zoom, refocus, and self-correct while collecting the evidence. However, existing computational pipelines often lack this explicit reasoning trajectory, resulting in inherently opaque and unjustifiable predictions. To bridge this gap, we present PathAgent, a training-free, large language model (LLM)-based agent framework that emulates the reflective, stepwise analytical approach of human experts. PathAgent can autonomously explore WSI, iteratively and precisely locating significant micro-regions using the Navigator module, extracting morphology visual cues using the Perceptor, and integrating these findings into the continuously evolving natural language trajectories in the Executor. The entire sequence of observations and decisions forms an explicit chain-of-thought, yielding fully interpretable predictions. Evaluated across five challenging datasets, PathAgent exhibits strong zero-shot generalization, surpassing task-specific baselines in both open-ended and constrained visual question-answering tasks. Moreover, a collaborative evaluation with human pathologists confirms PathAgent's promise as a transparent and clinically grounded diagnostic assistant.
- Abstract(参考訳): 全体スライド画像(WSI)を分析するには、病理学者が証拠を収集しながら動的にズームし、再焦点し、自己修正する方法と並行して、反復的でエビデンス駆動の推論プロセスが必要である。
しかし、既存の計算パイプラインは、しばしばこの明確な推論軌道を欠いているため、本質的に不透明で不当な予測をもたらす。
このギャップを埋めるために、我々は、人間の専門家の反射的、段階的分析的アプローチをエミュレートする、トレーニングフリーで大規模言語モデル(LLM)ベースのエージェントフレームワークPathAgentを紹介した。
PathAgentはWSIを自律的に探索し、Navigatorモジュールを使用して重要なマイクロリージョンを反復的かつ正確に探索し、Perceptorを使って形態的視覚的手がかりを抽出し、これらの発見をExecutorの継続的な進化する自然言語軌跡に統合することができる。
観察と決定のシーケンス全体が明確な連鎖を形成し、完全に解釈可能な予測をもたらす。
PathAgentは5つの挑戦的なデータセットで評価され、オープンエンドと制約付きの両方の視覚的質問応答タスクにおいて、タスク固有のベースラインを超えた、強力なゼロショットの一般化を示す。
さらに、ヒト病理学者との協調評価により、PathAgentが透明で臨床に根ざした診断アシスタントとして約束されていることが確認された。
関連論文リスト
- Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images [96.43608872116347]
AnomReasonは4倍のtextbfAnomAgentのような構造化アノテーションを備えた大規模ベンチマーク
AnomReasonとAnomAgentは、AI生成画像の意味的妥当性の測定と改善の基盤となっている。
論文 参考訳(メタデータ) (2025-10-11T14:09:24Z) - Pathology-CoT: Learning Visual Chain-of-Thought Agent from Expert Whole Slide Image Diagnosis Behavior [6.583135094946921]
3つの重要なブレークスルーを通じて、この問題に対処するために設計されたフレームワークを紹介します。
まず、AI Session Recorderは、標準的な全スライド画像ビューアとシームレスに統合される。
第2に、ライトウェイトなヒューマン・イン・ザ・ループ・レビューは、行動コマンドのAIドラフトによる合理性を、Pathology-CoTデータセットに変換する。
第三に、我々のフレームワークはエージェントの病理を実践し、ヒトに適応し、アップグレード可能な臨床AIへの道を確立します。
論文 参考訳(メタデータ) (2025-10-06T08:44:04Z) - PathMR: Multimodal Visual Reasoning for Interpretable Pathology Diagnosis [9.728322291979564]
病理画像解析のための細胞レベルでのマルチモーダルビジュアル推論フレームワークであるPathMRを提案する。
PathMRは、テキスト生成品質、セグメンテーション精度、モーダルアライメントにおいて、最先端の視覚的推論手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-28T14:46:24Z) - How do Transformers Learn Implicit Reasoning? [67.02072851088637]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - CPathAgent: An Agent-based Foundation Model for Interpretable High-Resolution Pathology Image Analysis Mimicking Pathologists' Diagnostic Logic [23.488576700623966]
我々は、病理医の診断ワークフローを模倣する革新的なエージェントベースのアプローチであるCPathAgentを紹介する。
我々は、パッチレベル、リージョンレベル、WSIレベルの機能を単一のモデルに統合するマルチステージトレーニング戦略を開発します。
PathMMU-HR2は、大規模領域分析のための最初のエキスパート検証ベンチマークである。
論文 参考訳(メタデータ) (2025-05-26T20:22:19Z) - PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。
本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。
本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2025-04-09T14:58:21Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。