論文の概要: PathReasoning: A multimodal reasoning agent for query-based ROI navigation on whole-slide images
- arxiv url: http://arxiv.org/abs/2511.21902v1
- Date: Wed, 26 Nov 2025 20:44:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.293204
- Title: PathReasoning: A multimodal reasoning agent for query-based ROI navigation on whole-slide images
- Title(参考訳): PathReasoning:全スライディング画像上のクエリベースのROIナビゲーションのためのマルチモーダル推論エージェント
- Authors: Kunpeng Zhang, Hanwen Xu, Sheng Wang,
- Abstract要約: We propose "PathReasoning", a multi-modal reasoning agent that repeaterative navigate across Whole Slide Images (WSIs)。
PathReasoningは、診断関連分野に徐々に注意を向ける推論チェーンを構築している。
サブタイプおよび縦断解析タスクにおいて、AUROCの6.7%と3.1%の強いROI選択アプローチを大幅に上回ることができる。
- 参考スコア(独自算出の注目度): 12.145046046646215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deciphering tumor microenvironment from Whole Slide Images (WSIs) is intriguing as it is key to cancer diagnosis, prognosis and treatment response. While these gigapixel images on one hand offer a comprehensive portrait of cancer, on the other hand, the extremely large size, as much as more than 10 billion pixels, make it challenging and time-consuming to navigate to corresponding regions to support diverse clinical inspection. Inspired by pathologists who conducted navigation on WSIs with a combination of sampling, reasoning and self-reflection, we proposed "PathReasoning", a multi-modal reasoning agent that iteratively navigates across WSIs through multiple rounds of reasoning and refinements. Specifically, starting with randomly sampled candidate regions, PathReasoning reviews current selections with self-reflection, reasoning over the correspondence between visual observations and clinical questions, and concludes by proposing new regions to explore. Across rounds, PathReasoning builds a reasoning chain that gradually directs attention to diagnostically relevant areas. PathReasoning turns each whole slide into a sequence of question-guided views, allowing the model to efficiently find informative ROIs within a fixed number of steps, without the need for dense pixel-level annotations. PathReasoning can substantially outperform strong ROI-selection approaches by 6.7% and 3.1% of AUROC on subtyping and longitudinal analysis tasks. The high-quality ROIs further support accurate report generation on breast cancer, significantly outperforming the standard GPT-4o by 10% in accuracy. PathReasoning prioritizes question-specific regions and constructs interpretable reasoning chains, supporting efficient slide review, consistent diagnostic interpretations, comprehensive reporting, and evidence traceability in digital pathology.
- Abstract(参考訳): 全スライド画像(WSI)からの腫瘍微小環境の解明は,癌診断,予後,治療反応の鍵となる。
これらのギガピクセル画像は、がんの包括的像を提供する一方で、非常に大きなサイズで、100億ピクセルを超えるため、さまざまな臨床検査をサポートするために対応する地域への移動が困難で時間を要する。
本研究は,WSIのナビゲーションをサンプリング,推論,自己回帰の組み合わせで実施した病理学者にインスパイアされ,複数ラウンドの推論と改善を通じてWSIを反復的にナビゲートするマルチモーダル推論剤"PathReasoning"を提案した。
具体的には、ランダムにサンプリングされた候補領域から始め、PathReasoning氏は現在の選択を自己回帰でレビューし、視覚観察と臨床問題との対応を推論し、新しい領域を探索することで結論付ける。
ラウンド全体でPathReasoningは、診断関連分野に徐々に注意を向ける推論チェーンを構築している。
PathReasoningは、各スライドを一連の質問誘導ビューに変換することで、高密度のピクセルレベルのアノテーションを必要とせずに、固定されたステップ内の情報ROIを効率的に見つけることができる。
PathReasoningは、サブタイプおよび縦解析タスクにおいて、AUROCの6.7%と3.1%の強いROI選択アプローチを大幅に上回る。
高品質ROIは、乳がんの正確な報告生成をさらに支援し、標準GPT-4oの精度を10%上回った。
PathReasoningは、質問固有の領域を優先順位付けし、解釈可能な推論チェーンを構築し、効率的なスライドレビュー、一貫した診断解釈、包括的な報告、デジタル病理学におけるエビデンストトレーサビリティをサポートする。
関連論文リスト
- PathMR: Multimodal Visual Reasoning for Interpretable Pathology Diagnosis [9.728322291979564]
病理画像解析のための細胞レベルでのマルチモーダルビジュアル推論フレームワークであるPathMRを提案する。
PathMRは、テキスト生成品質、セグメンテーション精度、モーダルアライメントにおいて、最先端の視覚的推論手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-28T14:46:24Z) - Patho-AgenticRAG: Towards Multimodal Agentic Retrieval-Augmented Generation for Pathology VLMs via Reinforcement Learning [9.075284970935341]
Patho-AgenticRAGは、権威的な病理教科書からページレベルの埋め込みに基づいて構築されたデータベースである。
共同でテキストイメージ検索をサポートし、クエリされたテキストと関連する視覚的手がかりの両方を含む教科書ページの直接検索を可能にする。
Patho-AgenticRAGは、多重選択診断や視覚的質問応答といった複雑な病態タスクにおいて、既存のマルチモーダルモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-04T10:03:08Z) - RadFabric: Agentic AI System with Reasoning Capability for Radiology [61.25593938175618]
RadFabricは、総合的なCXR解釈のための視覚的およびテキスト分析を統合するマルチエージェント、マルチモーダル推論フレームワークである。
システムは、病理診断に特殊なCXRエージェント、正確な解剖学的構造に視覚所見をマッピングする解剖学的解釈エージェント、および視覚的、解剖学的、臨床データを透明かつ証拠に基づく診断に合成する大規模なマルチモーダル推論モデルを利用した推論エージェントを使用する。
論文 参考訳(メタデータ) (2025-06-17T03:10:33Z) - MIL vs. Aggregation: Evaluating Patient-Level Survival Prediction Strategies Using Graph-Based Learning [52.231128973251124]
我々は,WSIおよび患者レベルでの生存を予測するための様々な戦略を比較した。
前者はそれぞれのWSIを独立したサンプルとして扱い、他の作業で採用された戦略を模倣します。
後者は、複数のWSIの予測を集約するか、最も関連性の高いスライドを自動的に識別するメソッドを含む。
論文 参考訳(メタデータ) (2025-03-29T11:14:02Z) - Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development [59.74920439478643]
本稿では,多様なERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈付けする。
ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。
本稿では,ASTR (Adaptive Sparse-context TRansformer) という大腸癌セグメンテーションのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:04:42Z) - HistoGym: A Reinforcement Learning Environment for Histopathological Image Analysis [9.615399811006034]
HistoGymは、医師の実際の過程を模倣して、スライド画像全体の診断を促進することを目的としている。
私たちは、WSIベースのシナリオと選択された地域ベースのシナリオを含む、さまざまな臓器や癌のシナリオを提供しています。
論文 参考訳(メタデータ) (2024-08-16T17:19:07Z) - WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic
Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。
第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文 参考訳(メタデータ) (2022-04-13T15:27:05Z) - Act Like a Radiologist: Towards Reliable Multi-view Correspondence
Reasoning for Mammogram Mass Detection [49.14070210387509]
マンモグラム質量検出のための解剖学的グラフ畳み込みネットワーク(AGN)を提案する。
AGNはマンモグラムの質量検出用に調整されており、既存の検出手法を多視点推論能力で実現している。
2つの標準ベンチマークの実験によると、AGNは最先端のパフォーマンスを大幅に上回っている。
論文 参考訳(メタデータ) (2021-05-21T06:48:34Z) - Automated Prostate Cancer Diagnosis Based on Gleason Grading Using
Convolutional Neural Network [12.161266795282915]
そこで本研究では,前立腺癌(PCa)の完全分類のための畳み込みニューラルネットワーク(CNN)を用いた自動分類法を提案する。
Patch-Based Image Reconstruction (PBIR) と呼ばれるデータ拡張手法が提案され,WSIの高分解能化と多様性の向上が図られた。
対象データセットへの事前学習モデルの適応性を高めるために,分布補正モジュールを開発した。
論文 参考訳(メタデータ) (2020-11-29T06:42:08Z) - Explaining Clinical Decision Support Systems in Medical Imaging using
Cycle-Consistent Activation Maximization [112.2628296775395]
ディープニューラルネットワークを用いた臨床意思決定支援は、着実に関心が高まりつつあるトピックとなっている。
臨床医は、その根底にある意思決定プロセスが不透明で理解しにくいため、この技術の採用をためらうことが多い。
そこで我々は,より小さなデータセットであっても,分類器決定の高品質な可視化を生成するCycleGANアクティベーションに基づく,新たな意思決定手法を提案する。
論文 参考訳(メタデータ) (2020-10-09T14:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。