論文の概要: Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning
- arxiv url: http://arxiv.org/abs/2603.00667v1
- Date: Sat, 28 Feb 2026 14:22:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.315165
- Title: Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning
- Title(参考訳): 病理医のような行為:組織を意識したスライド画像推論
- Authors: Wentao Huang, Weimin Lyu, Peiliang Lou, Qingqiao Hu, Xiaoling Hu, Shahira Abousamra, Wenchao Han, Ruifeng Guo, Jiawei Zhou, Chao Chen, Chen Wang,
- Abstract要約: 我々は,質問誘導,組織認識,粗粒度検索フレームワークHistoSelectを提案する。
提案手法は既存の手法より優れ, 解釈可能な, 病理学的に整合した領域で解答を導出する。
以上の結果から,WSI推論に人間ライクな検索と注意パターンを取り入れることが,実用的で信頼性の高いVLMを構築する上で有望な方向であることが示唆された。
- 参考スコア(独自算出の注目度): 21.809404751735503
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Computational pathology has advanced rapidly in recent years, driven by domain-specific image encoders and growing interest in using vision-language models to answer natural-language questions about diseases. Yet, the core problem behind pathology question-answering remains unsolved, considering that a gigapixel slide contains far more information than necessary for a given question. Pathologists naturally navigate tissue and morphology complexity by scanning broadly, and zooming in selectively according to the clinical questions. Current models, in contrast, rely on uniform patch sampling or broad attention maps, often attending equally to irrelevant regions while overlooking key visual evidence. In this work, we try to bring models closer to how humans actually examine slides. We propose a question-guided, tissue-aware, and coarse-to-fine retrieval framework, HistoSelect, that consists of two key components: a group sampler that identifies question-relevant tissue regions, followed by a patch selector that retrieves the most informative patches within those regions. By selecting only the most informative patches, our method becomes significantly more efficient: reducing visual token usage by 70% on average, while improving accuracy across three pathology QA tasks. Evaluated on 356,000 question-answer pairs, our approach outperforms existing methods and produces answers grounded in interpretable, pathologist-consistent regions. Our results suggest that bringing human-like search and attention patterns into WSI reasoning is a promising direction for building practical and reliable pathology VLMs.
- Abstract(参考訳): 近年、ドメイン固有の画像エンコーダや、視覚言語モデルを用いて疾患に関する自然言語の質問に答えることへの関心が高まり、計算病理学は急速に進歩している。
しかし、ギガピクセルスライドが与えられた質問に必要な情報よりもはるかに多くの情報を含んでいることを考えると、病理的質問答えの根底にある問題は未解決のままである。
病理学者は、組織と形態の複雑さを広範囲にスキャンし、臨床的な質問に応じて選択的に拡大することで自然にナビゲートする。
対照的に、現在のモデルは均一なパッチサンプリングや広い注意マップに依存しており、しばしば重要な視覚的証拠を見下ろしながら、無関係な領域に等しく参加する。
この研究で我々は、人間が実際にスライドを調べる方法にモデルを近づけようとしている。
問合せ関連組織領域を識別するグループサンプリングと,それらの領域で最も情報に富むパッチを検索するパッチセレクタの2つの主要なコンポーネントからなる,問合せ付き組織認識および粗粒度検索フレームワークであるHistoSelectを提案する。
提案手法は,最も情報性の高いパッチのみを選択することで,視覚トークンの使用率を平均70%削減し,3つのQAタスクの精度を向上する。
提案手法は,356,000対の質問応答対で評価され,既存の手法より優れ,解釈可能な,病理医が一貫性のある領域に根ざした回答が得られた。
以上の結果から,WSI推論に人間ライクな検索と注意パターンを取り入れることが,実用的で信頼性の高いVLMを構築する上で有望な方向であることが示唆された。
関連論文リスト
- A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - PathReasoning: A multimodal reasoning agent for query-based ROI navigation on whole-slide images [12.145046046646215]
We propose "PathReasoning", a multi-modal reasoning agent that repeaterative navigate across Whole Slide Images (WSIs)。
PathReasoningは、診断関連分野に徐々に注意を向ける推論チェーンを構築している。
サブタイプおよび縦断解析タスクにおいて、AUROCの6.7%と3.1%の強いROI選択アプローチを大幅に上回ることができる。
論文 参考訳(メタデータ) (2025-11-26T20:44:17Z) - Accurate and Scalable Multimodal Pathology Retrieval via Attentive Vision-Language Alignment [25.320017572772553]
PathSearchは、視覚言語によるコントラスト学習を通じて、細粒度の注意モザイク表現をグローバルなスライド埋め込みと統合する検索フレームワークである。
スライドレポートペア6,926のコーパスでトレーニングされたPathSearchは、きめ細かい形態的手がかりと高いレベルのセマンティックパターンの両方をキャプチャして、正確で柔軟な検索を可能にする。
PathSearchは、4つの公開病理データセットと3つの社内コホートで厳格に評価され、解剖学的部位の検索、腫瘍のサブタイプ、腫瘍対非腫瘍の識別、乳がん、肺、腎臓、肝臓、胃などの様々な臓器のグレーティングを含むタスクをカバーした。
論文 参考訳(メタデータ) (2025-10-27T11:22:28Z) - Patho-AgenticRAG: Towards Multimodal Agentic Retrieval-Augmented Generation for Pathology VLMs via Reinforcement Learning [9.075284970935341]
Patho-AgenticRAGは、権威的な病理教科書からページレベルの埋め込みに基づいて構築されたデータベースである。
共同でテキストイメージ検索をサポートし、クエリされたテキストと関連する視覚的手がかりの両方を含む教科書ページの直接検索を可能にする。
Patho-AgenticRAGは、多重選択診断や視覚的質問応答といった複雑な病態タスクにおいて、既存のマルチモーダルモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-04T10:03:08Z) - A Graph-Based Framework for Interpretable Whole Slide Image Analysis [86.37618055724441]
我々は,全スライディング画像を生物学的にインフォームドされたグラフ表現に変換するフレームワークを開発した。
我々のアプローチは、任意の格子ではなく、自然構造を尊重する組織領域からグラフノードを構築する。
がんのステージングと生存予測の課題に強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-14T20:15:04Z) - Pathological Prior-Guided Multiple Instance Learning For Mitigating Catastrophic Forgetting in Breast Cancer Whole Slide Image Classification [50.899861205016265]
乳癌のWSI分類における破滅的忘れを緩和する新しい枠組みであるPaGMILを提案する。
私たちのフレームワークでは、共通のMILモデルアーキテクチャに2つの重要なコンポーネントを導入しています。
複数の乳がんデータセットを対象としたPaGMILの連続学習性能の評価を行った。
論文 参考訳(メタデータ) (2025-03-08T04:51:58Z) - HistoGym: A Reinforcement Learning Environment for Histopathological Image Analysis [9.615399811006034]
HistoGymは、医師の実際の過程を模倣して、スライド画像全体の診断を促進することを目的としている。
私たちは、WSIベースのシナリオと選択された地域ベースのシナリオを含む、さまざまな臓器や癌のシナリオを提供しています。
論文 参考訳(メタデータ) (2024-08-16T17:19:07Z) - FMDNN: A Fuzzy-guided Multi-granular Deep Neural Network for Histopathological Image Classification [40.94024666952439]
ファジィ誘導多粒性ディープニューラルネットワーク(FMDNN)を提案する。
病理学者の多粒性診断アプローチに触発され, 粗さ, 培地, 微粒度における細胞構造の特徴抽出を行った。
ファジィ誘導型クロスアテンションモジュールは、普遍的なファジィ特徴を多粒性特徴へ導く。
論文 参考訳(メタデータ) (2024-07-22T00:46:15Z) - Knowledge-enhanced Visual-Language Pretraining for Computational Pathology [68.6831438330526]
本稿では,公共資源から収集した大規模画像テキストペアを利用した視覚的表現学習の課題について考察する。
ヒト32組織から病理診断を必要とする4,718の疾患に対して50,470個の情報属性からなる病理知識ツリーをキュレートする。
論文 参考訳(メタデータ) (2024-04-15T17:11:25Z) - RudolfV: A Foundation Model by Pathologists for Pathologists [13.17203220753175]
計算病理学の基礎モデルを設計するための新しいアプローチを提案する。
我々のモデル "RudolfV" は、様々なベンチマークで既存の最先端基盤モデルを上回っています。
論文 参考訳(メタデータ) (2024-01-08T18:31:38Z) - Active Learning Enhances Classification of Histopathology Whole Slide
Images with Attention-based Multiple Instance Learning [48.02011627390706]
我々は、注意に基づくMILをトレーニングし、データセット内の各画像に対する信頼度を算出し、専門家のアノテーションに対して最も不確実なWSIを選択する。
新たな注意誘導損失により、各クラスにアノテートされた領域がほとんどない、トレーニングされたモデルの精度が向上する。
将来的には、病理組織学における癌分類の臨床的に関連する文脈において、MILモデルのトレーニングに重要な貢献をする可能性がある。
論文 参考訳(メタデータ) (2023-03-02T15:18:58Z) - Unsupervised deep learning techniques for powdery mildew recognition
based on multispectral imaging [63.62764375279861]
本稿では,キュウリ葉の粉状ミドウを自動的に認識する深層学習手法を提案する。
マルチスペクトルイメージングデータに適用した教師なし深層学習技術に焦点をあてる。
本稿では, オートエンコーダアーキテクチャを用いて, 疾患検出のための2つの手法を提案する。
論文 参考訳(メタデータ) (2021-12-20T13:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。