論文の概要: ReinPath: A Multimodal Reinforcement Learning Approach for Pathology
- arxiv url: http://arxiv.org/abs/2601.14757v1
- Date: Wed, 21 Jan 2026 08:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.290399
- Title: ReinPath: A Multimodal Reinforcement Learning Approach for Pathology
- Title(参考訳): ReinPath: 病理学のためのマルチモーダル強化学習アプローチ
- Authors: Kangcheng Zhou, Jun Jiang, Qing Zhang, Shuang Zheng, Qingli Li, Shugong Xu,
- Abstract要約: 強力な推論機能を備えた多モーダル・パロジ大言語モデルを提案する。
複雑な推論タスクをサポートするために特別に設計された,高品質な視覚的質問応答(VQA)データセットを構築した。
また,CLIPと比較して,下流のゼロショット画像分類タスクにおいて同等の性能を実現する。
- 参考スコア(独自算出の注目度): 33.03449962260981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpretability is significant in computational pathology, leading to the development of multimodal information integration from histopathological image and corresponding text data.However, existing multimodal methods have limited interpretability due to the lack of high-quality dataset that support explicit reasoning and inference and simple reasoning process.To address the above problems, we introduce a novel multimodal pathology large language model with strong reasoning capabilities.To improve the generation of accurate and contextually relevant textual descriptions, we design a semantic reward strategy integrated with group relative policy optimization.We construct a high-quality pathology visual question answering (VQA) dataset, specifically designed to support complex reasoning tasks.Comprehensive experiments conducted on this dataset demonstrate that our method outperforms state-of-the-art methods, even when trained with only 20% of the data.Our method also achieves comparable performance on downstream zero-shot image classification task compared with CLIP.
- Abstract(参考訳): 従来のマルチモーダルな手法は、明示的な推論と推論と単純な推論処理をサポートする高品質なデータセットが欠如しているため、解釈可能性に限界があるが、上記の問題に対処するため、我々は、高い推論能力を持つ新しい多モーダルな言語モデルを導入し、正確で文脈的に関連するテキスト記述の生成を改善するために、グループ相対的なポリシー最適化と統合されたセマンティック報酬戦略を設計する。我々は、複雑な推論タスクをサポートするために、高品質なパスロジ視覚質問応答(VQA)データセットを構築します。
関連論文リスト
- MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Histopathology Image Report Generation by Vision Language Model with Multimodal In-Context Learning [27.49826980862286]
トレーニングセットから派生したコンテキストをマルチモーダルなインコンテキスト学習機構に統合する,PathGenICというインコンテキスト学習フレームワークを提案する。
提案手法は意味論的に類似したスライド表現(WSI)-レポートペアを動的に検索し,適応的なフィードバックを取り入れてコンテキスト関連性と生成品質を向上させる。
論文 参考訳(メタデータ) (2025-06-21T08:56:45Z) - Any-to-Any Learning in Computational Pathology via Triplet Multimodal Pretraining [7.22968366818898]
ALTERは、WSI、ゲノム学、病理学のレポートを統合した、トリモーダルな事前トレーニングフレームワークである。
WSI中心のアプローチを超えて、堅牢でクロスプラットフォームな表現を学びます。
ALTERは生存予測,癌サブタイプ,遺伝子変異予測,報告生成など,幅広い臨床課題にまたがって評価を行った。
論文 参考訳(メタデータ) (2025-05-19T05:07:34Z) - Multimodal Cancer Survival Analysis via Hypergraph Learning with Cross-Modality Rebalance [14.966126636473952]
本稿では,ハイパーグラフ学習を取り入れた病理画像から文脈的・階層的詳細を抽出するフレームワークを提案する。
C-Indexの性能は3.4%以上向上した。
論文 参考訳(メタデータ) (2025-05-17T13:16:54Z) - CLIP-IT: CLIP-based Pairing for Histology Images Classification [14.397842743945155]
マルチモーダル学習は、画像やテキストのような相補的なモダリティを組み合わせた医療画像において有望であることを示している。
CLIP-IT(CLIP-IT)は、リッチな未ペアテキストレポートに依存する新しいフレームワークである。
また,CLIP-ITは,CLIPベースラインの非標準およびマルチモーダルベースラインの分類精度を常に向上することを示した。
論文 参考訳(メタデータ) (2025-04-22T18:14:43Z) - Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。
大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。
本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文 参考訳(メタデータ) (2025-04-04T04:04:56Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - Deep Partial Multi-View Learning [94.39367390062831]
クロスパーシャル・マルチビュー・ネットワーク(CPM-Nets)と呼ばれる新しいフレームワークを提案する。
我々はまず、多視点表現に対する完全性と汎用性の形式的な定義を提供する。
そして、理論的に学習された潜在表現の多元性を証明する。
論文 参考訳(メタデータ) (2020-11-12T02:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。