論文の概要: PathVLM-R1: A Reinforcement Learning-Driven Reasoning Model for Pathology Visual-Language Tasks
- arxiv url: http://arxiv.org/abs/2504.09258v1
- Date: Sat, 12 Apr 2025 15:32:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:49:53.966975
- Title: PathVLM-R1: A Reinforcement Learning-Driven Reasoning Model for Pathology Visual-Language Tasks
- Title(参考訳): PathVLM-R1: 病理視覚言語タスクのための強化学習駆動推論モデル
- Authors: Jianyu Wu, Hao Yang, Xinhua Zeng, Guibing He, Zhiyu Chen, Zihui Li, Xiaochuan Zhang, Yangyang Ma, Run Fang, Yang Liu,
- Abstract要約: 病理画像に特化して設計された視覚言語モデルPathVLM-R1を提案する。
我々は,Qwen2.5-VL-7B-インストラクタをベースとして,厳密に設計したポストトレーニング戦略により,病理的タスクのパフォーマンスを向上させた。
- 参考スコア(独自算出の注目度): 15.497221591506625
- License:
- Abstract: The diagnosis of pathological images is often limited by expert availability and regional disparities, highlighting the importance of automated diagnosis using Vision-Language Models (VLMs). Traditional multimodal models typically emphasize outcomes over the reasoning process, compromising the reliability of clinical decisions. To address the weak reasoning abilities and lack of supervised processes in pathological VLMs, we have innovatively proposed PathVLM-R1, a visual language model designed specifically for pathological images. We have based our model on Qwen2.5-VL-7B-Instruct and enhanced its performance for pathological tasks through meticulously designed post-training strategies. Firstly, we conduct supervised fine-tuning guided by pathological data to imbue the model with foundational pathological knowledge, forming a new pathological base model. Subsequently, we introduce Group Relative Policy Optimization (GRPO) and propose a dual reward-driven reinforcement learning optimization, ensuring strict constraint on logical supervision of the reasoning process and accuracy of results via cross-modal process reward and outcome accuracy reward. In the pathological image question-answering tasks, the testing results of PathVLM-R1 demonstrate a 14% improvement in accuracy compared to baseline methods, and it demonstrated superior performance compared to the Qwen2.5-VL-32B version despite having a significantly smaller parameter size. Furthermore, in out-domain data evaluation involving four medical imaging modalities: Computed Tomography (CT), dermoscopy, fundus photography, and Optical Coherence Tomography (OCT) images: PathVLM-R1's transfer performance improved by an average of 17.3% compared to traditional SFT methods. These results clearly indicate that PathVLM-R1 not only enhances accuracy but also possesses broad applicability and expansion potential.
- Abstract(参考訳): 病理画像の診断は、専門家の可用性と地域差によって制限されることが多く、視覚言語モデル(VLM)を用いた自動診断の重要性を強調している。
従来のマルチモーダルモデルは、典型的には推論プロセスよりも結果を強調し、臨床上の決定の信頼性を損なう。
そこで我々は,病理画像に特化して設計された視覚言語モデルPathVLM-R1を革新的に提案した。
我々は,Qwen2.5-VL-7B-インストラクタをベースとして,厳密に設計したポストトレーニング戦略により,病理的タスクのパフォーマンスを向上させた。
まず,病理データによる教師付き微調整を行い,基礎的な病理知識を蓄積し,新たな病理基盤モデルを形成する。
その後、グループ相対政策最適化(GRPO)を導入し、二重報酬駆動型強化学習最適化を提案し、推論プロセスの論理的監督と結果の正確性に対する厳密な制約をクロスモーダルプロセスの報酬と結果の精度で保証する。
その結果,PathVLM-R1では,パラメータサイズが著しく小さいにもかかわらず,Qwen2.5-VL-32Bよりも精度が14%向上し,Qwen2.5-VL-32Bよりも優れた性能を示した。
さらに、CT(Computed Tomography)、皮膚内視鏡(Dermoscopy)、眼底撮影(Opto Coherence Tomography)、OCT(Opto Coherence Tomography)の4つの画像を含む領域外データ評価では、PathVLM-R1の転送性能は従来のSFT法と比較して平均17.3%向上した。
これらの結果から,PathVLM-R1は精度を向上するだけでなく,適用可能性や拡張可能性も広いことが明らかとなった。
関連論文リスト
- Cross Feature Fusion of Fundus Image and Generated Lesion Map for Referable Diabetic Retinopathy Classification [1.091626241764448]
糖尿病網膜症(DR)は視覚障害の主要な原因であり、早期発見と診断を必要とする。
本研究では,伝達学習と相互注意機構を利用した高度な相互学習DR分類法を開発した。
2つの公開データセットを利用して、我々の実験は94.6%の精度を示し、現在の最先端の手法を4.4%上回った。
論文 参考訳(メタデータ) (2024-11-06T02:23:38Z) - CC-DCNet: Dynamic Convolutional Neural Network with Contrastive Constraints for Identifying Lung Cancer Subtypes on Multi-modality Images [13.655407979403945]
肺がんサブタイプを多次元・多モード画像で正確に分類するための新しい深層学習ネットワークを提案する。
提案モデルの強みは, 対のCT-病理画像セットと独立のCT画像セットの両方を動的に処理できることにある。
また,ネットワーク学習を通じてモダリティ関係を定量的にマッピングするコントラスト制約モジュールも開発した。
論文 参考訳(メタデータ) (2024-07-18T01:42:00Z) - Transformer-Based Self-Supervised Learning for Histopathological Classification of Ischemic Stroke Clot Origin [0.0]
虚血性脳卒中における血栓塞栓源の同定は治療と二次予防に不可欠である。
本研究は,虚血性脳梗塞の発生源を分類するためのエンボリのデジタル病理学における自己教師型深層学習アプローチについて述べる。
論文 参考訳(メタデータ) (2024-05-01T23:40:12Z) - Rethinking model prototyping through the MedMNIST+ dataset collection [0.11999555634662634]
この作業では、MedMNIST+データセットコレクションの包括的なベンチマークを導入する。
我々は、一般的なCNN(Convolutional Neural Networks)とViT(Vision Transformer)アーキテクチャを、異なる医療データセットにわたって再評価する。
この結果から,計算効率のよいトレーニングスキームと最新の基礎モデルが,エンドツーエンドのトレーニングに有効な代替手段を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-24T10:19:25Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Harmonizing Pathological and Normal Pixels for Pseudo-healthy Synthesis [68.5287824124996]
そこで本研究では,新しいタイプの識別器であるセグメンタを提案し,病変の正確な特定と擬似健康画像の視覚的品質の向上を図っている。
医用画像強調に生成画像を適用し,低コントラスト問題に対処するために拡張結果を利用する。
BraTSのT2モダリティに関する総合的な実験により、提案手法は最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-03-29T08:41:17Z) - Data-driven generation of plausible tissue geometries for realistic
photoacoustic image synthesis [53.65837038435433]
光音響トモグラフィ(pat)は形態的および機能的組織特性を回復する可能性がある。
我々は,PATデータシミュレーションの新たなアプローチを提案し,これを「シミュレーションの学習」と呼ぶ。
我々は、意味的注釈付き医療画像データに基づいて訓練されたGAN(Generative Adversarial Networks)の概念を活用して、可塑性組織ジオメトリを生成する。
論文 参考訳(メタデータ) (2021-03-29T11:30:18Z) - Automated Prostate Cancer Diagnosis Based on Gleason Grading Using
Convolutional Neural Network [12.161266795282915]
そこで本研究では,前立腺癌(PCa)の完全分類のための畳み込みニューラルネットワーク(CNN)を用いた自動分類法を提案する。
Patch-Based Image Reconstruction (PBIR) と呼ばれるデータ拡張手法が提案され,WSIの高分解能化と多様性の向上が図られた。
対象データセットへの事前学習モデルの適応性を高めるために,分布補正モジュールを開発した。
論文 参考訳(メタデータ) (2020-11-29T06:42:08Z) - Explaining Clinical Decision Support Systems in Medical Imaging using
Cycle-Consistent Activation Maximization [112.2628296775395]
ディープニューラルネットワークを用いた臨床意思決定支援は、着実に関心が高まりつつあるトピックとなっている。
臨床医は、その根底にある意思決定プロセスが不透明で理解しにくいため、この技術の採用をためらうことが多い。
そこで我々は,より小さなデータセットであっても,分類器決定の高品質な可視化を生成するCycleGANアクティベーションに基づく,新たな意思決定手法を提案する。
論文 参考訳(メタデータ) (2020-10-09T14:39:27Z) - Learning Binary Semantic Embedding for Histology Image Classification
and Retrieval [56.34863511025423]
バイナリ・セマンティック・エンベディング(LBSE)の学習方法を提案する。
効率的な埋め込み、分類、検索を行い、組織像の解釈可能なコンピュータ支援診断を提供する。
3つのベンチマークデータセットで実施された実験は、様々なシナリオにおいてLBSEの優位性を検証する。
論文 参考訳(メタデータ) (2020-10-07T08:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。