論文の概要: A Versatile Pathology Co-pilot via Reasoning Enhanced Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2507.17303v1
- Date: Wed, 23 Jul 2025 08:09:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.913165
- Title: A Versatile Pathology Co-pilot via Reasoning Enhanced Multimodal Large Language Model
- Title(参考訳): 拡張多モーダル大言語モデルによるVersatile Pathology Co-pilot
- Authors: Zhe Xu, Ziyi Liu, Junlin Hou, Jiabo Ma, Cheng Jin, Yihui Wang, Zhixuan Chen, Zhengyu Zhang, Zhengrui Guo, Fengtao Zhou, Yingxue Xu, Xi Wang, Ronald Cheong Kin Chan, Li Liang, Hao Chen,
- Abstract要約: 本稿では、ROIレベルとWSIレベルのタスクを同時に処理できる汎用MLLMであるSmartPath-R1を提案する。
本フレームワークは,スケール依存型微調整とタスク認識型強化微調整を組み合わせることで,チェーン・オブ・ファシリテータの必要性を回避する。
- 参考スコア(独自算出の注目度): 26.704101714550827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have emerged as powerful tools for computational pathology, offering unprecedented opportunities to integrate pathological images with language context for comprehensive diagnostic analysis. These models hold particular promise for automating complex tasks that traditionally require expert interpretation of pathologists. However, current MLLM approaches in pathology demonstrate significantly constrained reasoning capabilities, primarily due to their reliance on expensive chain-of-thought annotations. Additionally, existing methods remain limited to simplex application of visual question answering (VQA) at region-of-interest (ROI) level, failing to address the full spectrum of diagnostic needs such as ROI classification, detection, segmentation, whole-slide-image (WSI) classification and VQA in clinical practice. In this study, we present SmartPath-R1, a versatile MLLM capable of simultaneously addressing both ROI-level and WSI-level tasks while demonstrating robust pathological reasoning capability. Our framework combines scale-dependent supervised fine-tuning and task-aware reinforcement fine-tuning, which circumvents the requirement for chain-of-thought supervision by leveraging the intrinsic knowledge within MLLM. Furthermore, SmartPath-R1 integrates multiscale and multitask analysis through a mixture-of-experts mechanism, enabling dynamic processing for diverse tasks. We curate a large-scale dataset comprising 2.3M ROI samples and 188K WSI samples for training and evaluation. Extensive experiments across 72 tasks validate the effectiveness and superiority of the proposed approach. This work represents a significant step toward developing versatile, reasoning-enhanced AI systems for precision pathology.
- Abstract(参考訳): MLLM(Multimodal large language model)は、コンピュータ病理学の強力なツールとして登場し、包括的診断分析のための言語コンテキストと病理画像を統合する前例のない機会を提供している。
これらのモデルは、伝統的に病理学者の専門的な解釈を必要とする複雑なタスクを自動化することを特に約束している。
しかし、現在の病理学におけるMLLMアプローチは、主に高価なチェーン・オブ・シントアノテーションに依存しているため、かなり制約のある推論能力を示している。
さらに、既存の方法は、ROI分類、検出、セグメンテーション、WSI分類、臨床実践におけるVQAなどの診断要求の完全なスペクトルに対処できない、関心領域(ROI)レベルでの視覚的質問応答(VQA)の単純な応用に限られている。
本研究では, ROIレベルとWSIレベルの両方のタスクを同時に処理できる汎用MLLMであるSmartPath-R1を提案する。
本フレームワークは,MLLM内の本質的な知識を活用することにより,チェーン・オブ・ファシリテータの要求を回避するため,スケール依存型微調整とタスク認識型強化微調整を組み合わせたものである。
さらにSmartPath-R1は、Mix-of-expertsメカニズムを通じて、マルチスケールとマルチタスクの分析を統合し、多様なタスクの動的処理を可能にする。
我々は2.3MのROIサンプルと188KのWSIサンプルからなる大規模データセットを訓練と評価のためにキュレートする。
72タスクにわたる大規模な実験は、提案手法の有効性と優越性を検証した。
この研究は、精密病理学のための多目的で推論の強化されたAIシステムを開発するための重要なステップである。
関連論文リスト
- A Multi-Agent System for Complex Reasoning in Radiology Visual Question Answering [3.3809462259925938]
放射線画像質問応答(RVQA)は胸部X線画像に関する質問に対して正確な回答を提供する。
近年,マルチモーダル大言語モデル (MLLM) と検索拡張生成 (RAG) に基づく手法がRVQAの進歩に寄与している。
RVQAにおける複雑な推論を支援するために,マルチエージェントシステム(MAS)を導入する。
論文 参考訳(メタデータ) (2025-08-04T19:09:52Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning [12.054910727620154]
視線追跡データは、ユーザの認知状態に関する貴重な洞察を明らかにするが、その構造化された非言語的な性質のために分析することは困難である。
本稿では、視線追跡信号からの認知パターン抽出を促進するために、マルチモーダルな人間-AI協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-24T09:49:53Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - WSI-Agents: A Collaborative Multi-Agent System for Multi-Modal Whole Slide Image Analysis [28.548748698432416]
全スライド画像(WSI)は、デジタル病理学において不可欠であり、様々な病理学課題におけるギガピクセルの組織解析を可能にする。
マルチモーダルWSI分析のための新しい協調型マルチエージェントシステムであるWSI-Agentsを提案する。
論文 参考訳(メタデータ) (2025-07-19T16:11:03Z) - Auto-TA: Towards Scalable Automated Thematic Analysis (TA) via Multi-Agent Large Language Models with Reinforcement Learning [3.3212706551453155]
先天性心疾患(CHD: Congenital heart disease)は、従来の臨床指標では示されていない、複雑で寿命の長い課題である。
本稿では,臨床物語のエンド・ツー・エンドのセマンティック分析を行う,完全自動大規模言語モデル(LLM)パイプラインを提案する。
論文 参考訳(メタデータ) (2025-06-30T16:02:28Z) - A Multimodal Multi-Agent Framework for Radiology Report Generation [2.1477122604204433]
放射線診断レポート生成(RRG)は、医療画像から診断レポートを自動生成することを目的としている。
本稿では,段階的臨床推論ワークフローに適合するRRG用マルチモーダルマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-14T20:28:04Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - TAMA: A Human-AI Collaborative Thematic Analysis Framework Using Multi-Agent LLMs for Clinical Interviews [54.35097932763878]
Thematic Analysis (TA) は、構造化されていないテキストデータの潜在意味を明らかにするために広く使われている定性的手法である。
本稿では,多エージェントLEMを用いた人間とAIの協調的テーマ分析フレームワークTAMAを提案する。
TAMA は既存の LLM 支援TA アプローチよりも優れており,高い主題的ヒット率,カバレッジ,独特性を実現している。
論文 参考訳(メタデータ) (2025-03-26T15:58:16Z) - MLLM4PUE: Toward Universal Embeddings in Digital Pathology through Multimodal LLMs [34.092892344250025]
複数の下流タスクをサポートするユニバーサルなマルチモーダル埋め込みの必要性を強調した。
以前のアプローチでは、イメージとテキストを別々に扱うCLIPベースのモデルを微調整する必要があった。
MLLM4PUE は,MLLM を利用して下流の様々な病態に対する埋め込みを生成する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-02-11T03:28:55Z) - Survey on AI-Generated Media Detection: From Non-MLLM to MLLM [51.91311158085973]
AI生成メディアを検出する方法は急速に進化してきた。
MLLMに基づく汎用検出器は、信頼性検証、説明可能性、ローカライゼーション機能を統合する。
倫理的・セキュリティ的な配慮が、重要な世界的な懸念として浮上している。
論文 参考訳(メタデータ) (2025-02-07T12:18:20Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare [16.79952669254101]
本稿では,大規模言語モデルによる構造化された臨床データ処理を実現するための知識誘導型インコンテキスト学習フレームワークを提案する。
このアプローチでは、ドメイン固有の機能グループ化、慎重にバランスのとれた数ショットの例、タスク固有のプロンプト戦略を統合する。
論文 参考訳(メタデータ) (2024-05-10T06:52:44Z) - End-to-End Breast Cancer Radiotherapy Planning via LMMs with Consistency Embedding [47.360760580820966]
放射線腫瘍学の分野に適した包括的大規模マルチモーダルモデル(LMM)であるRO-LMMを提案する。
このモデルは臨床ワークフロー内の一連のタスクを効果的に管理し、臨床コンテキストの要約、放射線治療計画の提案、計画誘導されたターゲットボリュームセグメンテーションを含む。
クリーン入力処理の整合性を維持しつつ,LMMのノイズ入力に対する堅牢性を向上する,CEFTune(Consistency Embedding Fine-Tuning)技術を提案する。
論文 参考訳(メタデータ) (2023-11-27T14:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。