論文の概要: PathNavigate: A Training-Free Pathology Agent with Surprise-Guided Scan and Shared Slide Memory for Whole-Slide Image VQA
- arxiv url: http://arxiv.org/abs/2605.23559v1
- Date: Fri, 22 May 2026 12:25:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.342158
- Title: PathNavigate: A Training-Free Pathology Agent with Surprise-Guided Scan and Shared Slide Memory for Whole-Slide Image VQA
- Title(参考訳): PathNavigate:Surprise-Guided ScanとShared Slide Memoryを併用した完全スライディング画像VQAのためのトレーニングフリーな病理エージェント
- Authors: Chunze Yang, Qidong Liu, Wenjie Zhao, Yue Tang, Jiusong Ge, Di Zhang, Jiashuai Liu, Lei Wu, Junbo Lu, Ni Zhang, Xian Wu, Zeyu Gao, Chen Li,
- Abstract要約: PathNavigateは、スキャン-検索-読み取りルーチンを中心に構築された、トレーニング不要の病理エージェントである。
PathNavigateは、凍結した病理機能上で共有されたオンラインメモリモジュールを使用して、現在のスライドを低い倍率でスキャンする。
次に、このプール内でのみ、質問条件のPLIP関連性を適用して、高次探索ターゲットを選択する。
- 参考スコア(独自算出の注目度): 23.655497120225093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whole-slide image visual question answering (WSI-VQA) frames pathology as an extreme-context search problem: to answer a free-form clinical query, a system must first navigate a gigapixel slide under a strict inspection budget to locate sparse, high-resolution evidence. Existing approaches largely fall into two paradigms: i) supervised pathology multimodal large language models (MLLMs) and agents can absorb localization and reasoning into learned modules, but they often couple navigation to task-specific supervision and retraining, limiting their practicality; ii) training-free pathology agents avoid this cost by keeping core models frozen, but often follow a question-first design, constructing the initial candidate set mainly from query-conditioned relevance. This can miss decisive morphology that is not named in the question, and force heavier inference-time scaffolding. To address this challenge, we introduce PathNavigate, a training-free pathology agent built around a scan-search-readout routine. Before question matching, PathNavigate scans the current slide at low magnification with a shared online memory module over frozen pathology features, producing a slide-specific surprise field that marks an abnormal-region pool. It then applies question-conditioned PLIP relevance only within this pool to select high-magnification search targets. Finally, it extracts local high-magnification evidence and answers with a frozen perceptor-adjudicator stack, using the same online memory as slide-level context. Experiments on WSI-VQA and SlideBench-BCNB show that the proposed scan-search-readout design improves answer accuracy and yields more interpretable evidence-selection trajectories with higher efficiency.The code is available online.
- Abstract(参考訳): WSI-VQA (Whole-Slide image visual question answering) は、病理を極度にコンテキスト検索の問題として捉えている: フリーフォームな臨床クエリに答えるためには、システムはまず厳格な検査予算の下でギガピクセルスライドをナビゲートし、スパースで高い証拠を見つける必要がある。
既存のアプローチは、主に2つのパラダイムに分類される。
一 教師付き病理学マルチモーダル大言語モデル(MLLM)及びエージェントは、ローカライゼーション及び学習モジュールへの推論を吸収することができるが、しばしば、ナビゲーションをタスク固有の監督及び再訓練に結合し、その実用性を制限する。
二 コアモデルを凍結させることにより、このコストを回避することができるが、しばしば質問優先の設計に従い、主にクエリ条件の関連性から初期候補セットを構築する。
これは、疑問に言及されていない決定的な形態を見逃し、より重い推論時間の足場を強制する可能性がある。
この課題に対処するために、スキャン-検索-読み取りルーチンを中心に構築されたトレーニング不要の病理エージェントPathNavigateを紹介した。
質問マッチングの前にPathNavigateは、凍結した病理機能に対して共有のオンラインメモリモジュールを使用して、現在のスライドを低い倍率でスキャンし、異常領域プールを示すスライド固有のサプライズフィールドを生成する。
次に、このプール内でのみ、質問条件のPLIP関連性を適用して、高次探索ターゲットを選択する。
最後に、スライドレベルのコンテキストと同じオンラインメモリを用いて、ローカルな高強度エビデンスと解答を冷凍パーセプタ・アジュディケータスタックで抽出する。
WSI-VQAとSlideBench-BCNBの実験では、提案したスキャン-検索-読み出し設計により解答精度が向上し、より高い効率でより解釈可能なエビデンス-選択軌道が得られることが示されている。
関連論文リスト
- NaviRAG: Towards Active Knowledge Navigation for Retrieval-Augmented Generation [50.16741209529908]
NaviRAGは、パッシブセグメント検索からアクティブな知識ナビゲーションに移行する新しいフレームワークである。
NaviRAGは従来のRAGベースラインよりも検索リコールとエンドツーエンドの応答性能を一貫して改善することを示す。
論文 参考訳(メタデータ) (2026-04-14T14:07:01Z) - Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning [21.809404751735503]
我々は,質問誘導,組織認識,粗粒度検索フレームワークHistoSelectを提案する。
提案手法は既存の手法より優れ, 解釈可能な, 病理学的に整合した領域で解答を導出する。
以上の結果から,WSI推論に人間ライクな検索と注意パターンを取り入れることが,実用的で信頼性の高いVLMを構築する上で有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2026-02-28T14:22:53Z) - VIGIL: Tackling Hallucination Detection in Image Recontextualization [0.0]
幻覚の詳細な分類を提供する最初のベンチマークデータセットとフレームワークであるVIGILを紹介する。
本研究は,幻覚を5つのカテゴリに分解することで,マルチモーダル評価において大きなギャップを解消する。
我々のアーキテクチャは、オブジェクトレベルの忠実さ、背景の一貫性、欠落検出をターゲットとした一連の特別なステップを通じて、再構成された画像を処理する。
論文 参考訳(メタデータ) (2026-02-16T10:47:10Z) - DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories [52.57197752244638]
本稿では,画像検索を自律探索タスクとして再構成する新しいエージェントパラダイムであるDeepImageSearchを紹介する。
モデルは、暗黙の文脈的手がかりに基づいてターゲットを特定するために、生の視覚履歴に対して多段階の推論を計画し実行しなければならない。
DisBenchは、相互接続された視覚データ上に構築された、挑戦的なベンチマークである。
論文 参考訳(メタデータ) (2026-02-11T12:51:10Z) - Pathology-CoT: Learning Visual Chain-of-Thought Agent from Expert Whole Slide Image Diagnosis Behavior [6.583135094946921]
3つの重要なブレークスルーを通じて、この問題に対処するために設計されたフレームワークを紹介します。
まず、AI Session Recorderは、標準的な全スライド画像ビューアとシームレスに統合される。
第2に、ライトウェイトなヒューマン・イン・ザ・ループ・レビューは、行動コマンドのAIドラフトによる合理性を、Pathology-CoTデータセットに変換する。
第三に、我々のフレームワークはエージェントの病理を実践し、ヒトに適応し、アップグレード可能な臨床AIへの道を確立します。
論文 参考訳(メタデータ) (2025-10-06T08:44:04Z) - Patho-AgenticRAG: Towards Multimodal Agentic Retrieval-Augmented Generation for Pathology VLMs via Reinforcement Learning [9.075284970935341]
Patho-AgenticRAGは、権威的な病理教科書からページレベルの埋め込みに基づいて構築されたデータベースである。
共同でテキストイメージ検索をサポートし、クエリされたテキストと関連する視覚的手がかりの両方を含む教科書ページの直接検索を可能にする。
Patho-AgenticRAGは、多重選択診断や視覚的質問応答といった複雑な病態タスクにおいて、既存のマルチモーダルモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-04T10:03:08Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - Pathological Prior-Guided Multiple Instance Learning For Mitigating Catastrophic Forgetting in Breast Cancer Whole Slide Image Classification [50.899861205016265]
乳癌のWSI分類における破滅的忘れを緩和する新しい枠組みであるPaGMILを提案する。
私たちのフレームワークでは、共通のMILモデルアーキテクチャに2つの重要なコンポーネントを導入しています。
複数の乳がんデータセットを対象としたPaGMILの連続学習性能の評価を行った。
論文 参考訳(メタデータ) (2025-03-08T04:51:58Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。