論文の概要: ReinPath: A Multimodal Reinforcement Learning Approach for Pathology
- arxiv url: http://arxiv.org/abs/2601.14757v1
- Date: Wed, 21 Jan 2026 08:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.290399
- Title: ReinPath: A Multimodal Reinforcement Learning Approach for Pathology
- Title(参考訳): ReinPath: 病理学のためのマルチモーダル強化学習アプローチ
- Authors: Kangcheng Zhou, Jun Jiang, Qing Zhang, Shuang Zheng, Qingli Li, Shugong Xu,
- Abstract要約: 強力な推論機能を備えた多モーダル・パロジ大言語モデルを提案する。
複雑な推論タスクをサポートするために特別に設計された,高品質な視覚的質問応答(VQA)データセットを構築した。
また,CLIPと比較して,下流のゼロショット画像分類タスクにおいて同等の性能を実現する。
- 参考スコア(独自算出の注目度): 33.03449962260981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpretability is significant in computational pathology, leading to the development of multimodal information integration from histopathological image and corresponding text data.However, existing multimodal methods have limited interpretability due to the lack of high-quality dataset that support explicit reasoning and inference and simple reasoning process.To address the above problems, we introduce a novel multimodal pathology large language model with strong reasoning capabilities.To improve the generation of accurate and contextually relevant textual descriptions, we design a semantic reward strategy integrated with group relative policy optimization.We construct a high-quality pathology visual question answering (VQA) dataset, specifically designed to support complex reasoning tasks.Comprehensive experiments conducted on this dataset demonstrate that our method outperforms state-of-the-art methods, even when trained with only 20% of the data.Our method also achieves comparable performance on downstream zero-shot image classification task compared with CLIP.
- Abstract(参考訳): 従来のマルチモーダルな手法は、明示的な推論と推論と単純な推論処理をサポートする高品質なデータセットが欠如しているため、解釈可能性に限界があるが、上記の問題に対処するため、我々は、高い推論能力を持つ新しい多モーダルな言語モデルを導入し、正確で文脈的に関連するテキスト記述の生成を改善するために、グループ相対的なポリシー最適化と統合されたセマンティック報酬戦略を設計する。我々は、複雑な推論タスクをサポートするために、高品質なパスロジ視覚質問応答(VQA)データセットを構築します。
関連論文リスト
- Histopathology Image Report Generation by Vision Language Model with Multimodal In-Context Learning [27.49826980862286]
トレーニングセットから派生したコンテキストをマルチモーダルなインコンテキスト学習機構に統合する,PathGenICというインコンテキスト学習フレームワークを提案する。
提案手法は意味論的に類似したスライド表現(WSI)-レポートペアを動的に検索し,適応的なフィードバックを取り入れてコンテキスト関連性と生成品質を向上させる。
論文 参考訳(メタデータ) (2025-06-21T08:56:45Z) - Any-to-Any Learning in Computational Pathology via Triplet Multimodal Pretraining [7.22968366818898]
ALTERは、WSI、ゲノム学、病理学のレポートを統合した、トリモーダルな事前トレーニングフレームワークである。
WSI中心のアプローチを超えて、堅牢でクロスプラットフォームな表現を学びます。
ALTERは生存予測,癌サブタイプ,遺伝子変異予測,報告生成など,幅広い臨床課題にまたがって評価を行った。
論文 参考訳(メタデータ) (2025-05-19T05:07:34Z) - CLIP-IT: CLIP-based Pairing for Histology Images Classification [14.397842743945155]
マルチモーダル学習は、画像やテキストのような相補的なモダリティを組み合わせた医療画像において有望であることを示している。
CLIP-IT(CLIP-IT)は、リッチな未ペアテキストレポートに依存する新しいフレームワークである。
また,CLIP-ITは,CLIPベースラインの非標準およびマルチモーダルベースラインの分類精度を常に向上することを示した。
論文 参考訳(メタデータ) (2025-04-22T18:14:43Z) - Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。
大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。
本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文 参考訳(メタデータ) (2025-04-04T04:04:56Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。