論文の概要: Pathology-CoT: Learning Visual Chain-of-Thought Agent from Expert Whole Slide Image Diagnosis Behavior
- arxiv url: http://arxiv.org/abs/2510.04587v1
- Date: Mon, 06 Oct 2025 08:44:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.755852
- Title: Pathology-CoT: Learning Visual Chain-of-Thought Agent from Expert Whole Slide Image Diagnosis Behavior
- Title(参考訳): 病理-CoT:専門家による視覚的連鎖の学習 : スライド画像診断の振る舞い
- Authors: Sheng Wang, Ruiming Wu, Charles Herndon, Yihang Liu, Shunsuke Koga, Jeanne Shen, Zhi Huang,
- Abstract要約: 2段階の薬である病理学者-o3は、まず興味のある領域を提案し、次に行動誘導推論を行う。
胃腸リンパ節転移検出では84.5%の精度、100.0%のリコール、75.4%の精度を達成した。
- 参考スコア(独自算出の注目度): 6.583135094946921
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diagnosing a whole-slide image is an interactive, multi-stage process involving changes in magnification and movement between fields. Although recent pathology foundation models are strong, practical agentic systems that decide what field to examine next, adjust magnification, and deliver explainable diagnoses are still lacking. The blocker is data: scalable, clinically aligned supervision of expert viewing behavior that is tacit and experience-based, not written in textbooks or online, and therefore absent from large language model training. We introduce the AI Session Recorder, which works with standard WSI viewers to unobtrusively record routine navigation and convert the viewer logs into standardized behavioral commands (inspect or peek at discrete magnifications) and bounding boxes. A lightweight human-in-the-loop review turns AI-drafted rationales into the Pathology-CoT dataset, a form of paired "where to look" and "why it matters" supervision produced at roughly six times lower labeling time. Using this behavioral data, we build Pathologist-o3, a two-stage agent that first proposes regions of interest and then performs behavior-guided reasoning. On gastrointestinal lymph-node metastasis detection, it achieved 84.5% precision, 100.0% recall, and 75.4% accuracy, exceeding the state-of-the-art OpenAI o3 model and generalizing across backbones. To our knowledge, this constitutes one of the first behavior-grounded agentic systems in pathology. Turning everyday viewer logs into scalable, expert-validated supervision, our framework makes agentic pathology practical and establishes a path to human-aligned, upgradeable clinical AI.
- Abstract(参考訳): 全体スライディング画像の診断は、フィールド間の拡大と移動の変化を含む対話的で多段階のプロセスである。
最近の病理基盤モデルは強いが、次にどのフィールドを検査するかを決め、倍率を調整し、説明可能な診断を提供する実践的なエージェントシステムはまだ欠落している。
ブロッカーは、スケーラブルで臨床的に整合した専門家の観察行動の監督であり、教科書やオンラインでは書かれておらず、したがって大規模な言語モデルトレーニングを欠いている。
我々は、標準的なWSIビューアと連携して、通常のナビゲーションを控えめに記録し、ビューアログを標準化された動作コマンド(離散倍率のインスペクションや覗き見)とバウンディングボックスに変換するAI Session Recorderを紹介する。
軽量なHuman-in-the-loopレビューでは、AIが描画した理論的根拠をPathology-CoTデータセットに変えている。
この行動データを用いて、まず興味のある領域を提案し、行動誘導推論を行う2段階のエージェントであるPathologist-o3を構築する。
消化管リンパ節転移検出では84.5%の精度、100.0%のリコール、75.4%の精度を達成し、最先端のOpenAI o3モデルを超え、背骨全体に一般化した。
我々の知る限り、これは病理学における最初の行動接地型エージェントシステムの一つである。
我々のフレームワークは、日々の視聴者のログをスケーラブルで専門家公認の監視に転換し、エージェントの病理を実践し、ヒトに適応し、アップグレード可能な臨床AIへの道を確立します。
関連論文リスト
- Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Self-Supervised Cross-Encoder for Neurodegenerative Disease Diagnosis [6.226851122403944]
縦型MRIスキャンにおける時間的連続性を利用した自己監督型クロスエンコーダフレームワークを提案する。
このフレームワークは、学習した表現を2つのコンポーネントに分解する: 静的表現は、対照的な学習によって制約され、安定した解剖学的特徴を捉え、動的表現は、時間的変化を反映する入力漸進正規化によってガイドされる。
アルツハイマー病神経画像イニシアチブデータセットの実験結果から,本手法は分類精度が向上し,解釈性が向上することが示された。
論文 参考訳(メタデータ) (2025-09-09T11:52:24Z) - CPathAgent: An Agent-based Foundation Model for Interpretable High-Resolution Pathology Image Analysis Mimicking Pathologists' Diagnostic Logic [12.75486013022629]
CPathAgentは、病理学者の推論プロセスを模倣し、ズームイン/アウトおよびナビゲーション操作を自律的に実行するエージェントベースのモデルである。
CPathAgentは3つのベンチマークで既存のアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-26T20:22:19Z) - Discovering Pathology Rationale and Token Allocation for Efficient Multimodal Pathology Reasoning [25.707757721296627]
多モード画像理解は、診断精度を向上させる可能性から、広く関心を集めている。
既存の手法では推論能力が限られており、複雑な診断シナリオを扱う能力を妨げている。
本稿では,2つの相乗的分枝からなる二元的強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T16:03:03Z) - From Pixels to Histopathology: A Graph-Based Framework for Interpretable Whole Slide Image Analysis [81.19923502845441]
我々はWSIグラフ表現を構成するグラフベースのフレームワークを開発する。
任意のパッチではなく生物学的境界に従う組織表現(ノード)を構築します。
本手法の最終段階として,グラフアテンションネットワークを用いて診断課題を解決する。
論文 参考訳(メタデータ) (2025-03-14T20:15:04Z) - Screener: Self-supervised Pathology Segmentation in Medical CT Images [9.719923951063333]
我々は、教師なしの視覚異常セグメンテーション問題として、病理診断の枠組みを定めている。
既存の密度ベースUVASフレームワークを2つの重要なイノベーションで強化する。
3万枚以上のラベルのない3DCTボリュームでトレーニングされた当社の完全自己監督型モデル、Screenerは、既存のUVAS法より優れています。
論文 参考訳(メタデータ) (2025-02-12T11:37:35Z) - Multimodal Learning and Cognitive Processes in Radiology: MedGaze for Chest X-ray Scanpath Prediction [10.388541520456714]
提案システムは,放射線学報告やCXR画像から視線シーケンスを予測することを目的としている。
本モデルでは, 医用スキャンパス予測において重要な固定座標と期間を予測し, コンピュータビジョンコミュニティにおける既存モデルよりも優れていた。
放射線学者の評価に基づいて、MedGazeは関連する領域に焦点をあてたヒトのような視線配列を生成することができる。
論文 参考訳(メタデータ) (2024-06-28T06:38:58Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Mine yOur owN Anatomy: Revisiting Medical Image Segmentation with Extremely Limited Labels [54.58539616385138]
我々は、Mine yOur owN Anatomy (MONA) と呼ばれる、新しい半教師付き2次元医用画像セグメンテーションフレームワークを紹介する。
まず、先行研究では、すべてのピクセルがモデルトレーニングに等しく重要であると論じており、我々はこの1つだけで意味のある解剖学的特徴を定義できないことを経験的に観察している。
第2に,医療画像を解剖学的特徴の集合に分解できるモデルを構築する。
論文 参考訳(メタデータ) (2022-09-27T15:50:31Z) - BiteNet: Bidirectional Temporal Encoder Network to Predict Medical
Outcomes [53.163089893876645]
本稿では,患者の医療旅行におけるコンテキスト依存と時間的関係を捉える,新たな自己注意機構を提案する。
エンド・ツー・エンドの双方向時間エンコーダネットワーク(BiteNet)が患者の旅路の表現を学習する。
実世界のEHRデータセットを用いた2つの教師付き予測と2つの教師なしクラスタリングタスクにおける手法の有効性を評価した。
論文 参考訳(メタデータ) (2020-09-24T00:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。