論文の概要: Patho-R1: A Multimodal Reinforcement Learning-Based Pathology Expert Reasoner
- arxiv url: http://arxiv.org/abs/2505.11404v2
- Date: Fri, 30 May 2025 07:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 15:03:34.947653
- Title: Patho-R1: A Multimodal Reinforcement Learning-Based Pathology Expert Reasoner
- Title(参考訳): Patho-R1: マルチモーダル強化学習に基づく病理専門家推論器
- Authors: Wenchuan Zhang, Penghao Zhang, Jingru Guo, Tao Cheng, Jie Chen, Shuwan Zhang, Zhang Zhang, Yuhao Yi, Hong Bu,
- Abstract要約: 我々は、病理教科書と現実世界の病理の専門家を活用して、高品質で推論指向のデータセットを構築する。
Patho-R1はマルチモーダルなRLベースの病理組織Reasonerで、3段階のパイプラインを通じてトレーニングされた。
パス-CLIP(Patho-CLIP)は、継続事前訓練に使用される同じフィギュア・キャプション・コーパスで訓練された。
- 参考スコア(独自算出の注目度): 9.176863494209204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision language models (VLMs) have enabled broad progress in the general medical field. However, pathology still remains a more challenging subdomain, with current pathology specific VLMs exhibiting limitations in both diagnostic accuracy and reasoning plausibility. Such shortcomings are largely attributable to the nature of current pathology datasets, which are primarily composed of image description pairs that lack the depth and structured diagnostic paradigms employed by real world pathologists. In this study, we leverage pathology textbooks and real world pathology experts to construct high-quality, reasoning-oriented datasets. Building on this, we introduce Patho-R1, a multimodal RL-based pathology Reasoner, trained through a three-stage pipeline: (1) continued pretraining on 3.5 million image-text pairs for knowledge infusion; (2) supervised fine-tuning on 500k high-quality Chain-of-Thought samples for reasoning incentivizing; (3) reinforcement learning using Group Relative Policy Optimization and Decoupled Clip and Dynamic sAmpling Policy Optimization strategies for multimodal reasoning quality refinement. To further assess the alignment quality of our dataset, we propose Patho-CLIP, trained on the same figure-caption corpus used for continued pretraining. Comprehensive experimental results demonstrate that both Patho-CLIP and Patho-R1 achieve robust performance across a wide range of pathology-related tasks, including zero-shot classification, cross-modal retrieval, Visual Question Answering, and Multiple Choice Question. Our project is available at the Patho-R1 repository: https://github.com/Wenchuan-Zhang/Patho-R1.
- Abstract(参考訳): 近年の視覚言語モデル (VLM) の進歩は, 一般医療分野での幅広い進歩を可能にしている。
しかしながら、病理学はいまだにより困難なサブドメインであり、現在の病理組織特異的なVLMは診断精度と推論可能性の両方に限界がある。
このような欠点は、主に、現実世界の病理学者が採用する深度と構造的診断パラダイムに欠ける画像記述ペアで構成されている、現在の病理学データセットの性質に起因する。
本研究では,病理学の教科書と実世界の病理学の専門家を活用し,質の高い推論指向のデータセットを構築する。
そこで我々は,マルチモーダルRLをベースとした病理組織であるPatho-R1について,(1)知識注入のための350万枚の画像テキストペアの事前学習,(2)推論のインセンティブ化のための5万点の高品質チェイン・オブ・ソートサンプルの微調整,(3)グループリラクティブ・ポリシー最適化を用いた強化学習,(3)マルチモーダル推論品質改善のためのクリップとダイナミック・スアンプ・ポリシー最適化戦略について紹介する。
データセットのアライメント品質をさらに評価するため、継続事前学習に使用する同じフィギュアキャプションコーパスに基づいてトレーニングされたPatho-CLIPを提案する。
総合的な実験結果から、Patho-CLIPとPatho-R1は、ゼロショット分類、クロスモーダル検索、視覚質問応答、複数選択質問など、幅広い病的タスクにおいて堅牢なパフォーマンスを達成していることが示された。
私たちのプロジェクトはPatho-R1リポジトリで利用可能です。
関連論文リスト
- PathVLM-R1: A Reinforcement Learning-Driven Reasoning Model for Pathology Visual-Language Tasks [15.497221591506625]
病理画像に特化して設計された視覚言語モデルPathVLM-R1を提案する。
我々は,Qwen2.5-VL-7B-インストラクタをベースとして,厳密に設計したポストトレーニング戦略により,病理的タスクのパフォーマンスを向上させた。
論文 参考訳(メタデータ) (2025-04-12T15:32:16Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - A Multimodal Knowledge-enhanced Whole-slide Pathology Foundation Model [28.893198412376943]
我々は,3段階のモダリティ(病理スライド,病理報告,遺伝子発現データ)を取り入れた病理基盤モデルを構築した。
我々は,Multimodal Self-Taught PRetraining(mSTAR)と呼ばれる,マルチモーダルな全スライディングコンテキストをパッチ表現に注入する,新しい全スライディング事前学習パラダイムを提案する。
我々の知る限りでは、この手法は3つのモダリティをスライディング・コンテキストに組み込んで病理学的FMを強化する最初の試みである。
論文 参考訳(メタデータ) (2024-07-22T04:09:27Z) - Anatomy-guided Pathology Segmentation [56.883822515800205]
本研究では, 解剖学的特徴と病理学的情報を組み合わせた汎用的セグメンテーションモデルを構築し, 病理学的特徴のセグメンテーション精度を高めることを目的とする。
我々の解剖学・病理学交流(APEx)訓練では,ヒト解剖学の問合せ表現に結合特徴空間をデコードする問合せベースのセグメンテーション変換器を用いている。
これにより、FDG-PET-CTとChest X-Rayの病理分類タスクにおいて、強力なベースライン法に比べて最大3.3%のマージンで、ボード全体で最高の結果を報告できる。
論文 参考訳(メタデータ) (2024-07-08T11:44:15Z) - Knowledge-enhanced Visual-Language Pretraining for Computational Pathology [68.6831438330526]
本稿では,公共資源から収集した大規模画像テキストペアを利用した視覚的表現学習の課題について考察する。
ヒト32組織から病理診断を必要とする4,718の疾患に対して50,470個の情報属性からなる病理知識ツリーをキュレートする。
論文 参考訳(メタデータ) (2024-04-15T17:11:25Z) - Validating polyp and instrument segmentation methods in colonoscopy through Medico 2020 and MedAI 2021 Challenges [58.32937972322058]
メディコオートマチックポリープセグメンテーション(Medico 2020)と「メディコ:医療画像の透明性(MedAI 2021)」コンペティション。
本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。
論文 参考訳(メタデータ) (2023-07-30T16:08:45Z) - PathAsst: A Generative Foundation AI Assistant Towards Artificial
General Intelligence of Pathology [15.419350834457136]
病理学における診断・予測分析に革命をもたらすための多モード生成基盤AIアシスタントであるPathAsstを提案する。
PathAsstの開発には、データ取得、CLIPモデル適応、PathAsstのマルチモーダル生成機能のトレーニングの3つの重要なステップが含まれている。
PathAsstの実験結果は、病理診断と治療プロセスを改善するためにAIを利用した生成基盤モデルを活用する可能性を示している。
論文 参考訳(メタデータ) (2023-05-24T11:55:50Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。