論文の概要: MLLM4PUE: Toward Universal Embeddings in Digital Pathology through Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2502.07221v2
- Date: Sun, 16 Mar 2025 20:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:53.023016
- Title: MLLM4PUE: Toward Universal Embeddings in Digital Pathology through Multimodal LLMs
- Title(参考訳): MLLM4PUE:マルチモーダルLLMによるデジタル病理の普遍的埋め込みを目指して
- Authors: Qifeng Zhou, Thao M. Dang, Wenliang Zhong, Yuzhi Guo, Hehuan Ma, Saiyang Na, Haiqing Li, Junzhou Huang,
- Abstract要約: 複数の下流タスクをサポートするユニバーサルなマルチモーダル埋め込みの必要性を強調した。
以前のアプローチでは、イメージとテキストを別々に扱うCLIPベースのモデルを微調整する必要があった。
MLLM4PUE は,MLLM を利用して下流の様々な病態に対する埋め込みを生成する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 34.092892344250025
- License:
- Abstract: Pathology plays a critical role in diagnosing a wide range of diseases, yet existing approaches often rely heavily on task-specific models trained on extensive, well-labeled datasets. These methods face sustainability challenges due to the diversity of pathologies and the labor-intensive nature of data collection. To address these limitations, we highlight the need for universal multimodal embeddings that can support multiple downstream tasks. Previous approaches involve fine-tuning CLIP-based models, which handle images and texts separately, limiting their ability to capture complex multimodal relationships. Additionally, these models are evaluated across diverse datasets without a unified benchmark. In this paper, we explore the possibility of applying Multimodal Large Language Models (MLLMs) to generate pathology universal embeddings to address these challenges. Our contributions can be summarized in the following aspects: 1) We propose MLLM4PUE, a novel framework that leverages MLLMs to generate embeddings for various pathology downstream tasks. 2) We further introduce the Pathology Multimodal Embedding Benchmark (PMEB), a comprehensive benchmark designed to assess the quality of pathology multimodal embeddings, which comprises 16 original tasks drawn from 15 datasets. 3) Extensive experimental results demonstrate the superiority of MLLM4PUE, illustrating MLLM-based models can effectively support a wide range of downstream tasks and unify the research direction for foundation models in pathology.
- Abstract(参考訳): 病理学は、幅広い疾患の診断において重要な役割を担っているが、既存のアプローチは、広範囲にラベルが付けられたデータセットで訓練されたタスク固有のモデルに大きく依存することが多い。
これらの手法は、病理の多様性とデータ収集の労働集約性により、持続可能性の課題に直面している。
これらの制限に対処するために、複数の下流タスクをサポートするユニバーサルなマルチモーダル埋め込みの必要性を強調します。
以前のアプローチでは、画像とテキストを別々に処理し、複雑なマルチモーダル関係をキャプチャする能力を制限した、CLIPベースの微調整モデルが含まれていた。
さらに、これらのモデルは統一されたベンチマークなしで、多様なデータセットで評価される。
本稿では,これらの課題に対処するために,マルチモーダル大規模言語モデル(MLLM)を用いて,病理学の普遍的な埋め込みを生成する可能性について検討する。
私たちの貢献は以下の側面で要約できる。
1) MLLM4PUE は,MLLM を利用して下流の様々な病態に対する埋め込みを生成する新しいフレームワークである。
2) 病的マルチモーダル埋め込みベンチマーク(PMEB, Pathology Multimodal Embedding Benchmark)は,15のデータセットから16のタスクを抽出し,病的マルチモーダル埋め込みの品質を評価するための総合ベンチマークである。
3) MLLM4PUEの優位性を示す大規模な実験結果から, MLLMをベースとしたモデルでは, 広範囲の下流タスクを効果的にサポートでき, 病理学における基礎モデル研究の方向性を統一することができる。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。
我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - PathInsight: Instruction Tuning of Multimodal Datasets and Models for Intelligence Assisted Diagnosis in Histopathology [7.87900104748629]
6つの異なるタスクをカバーする約45,000のケースのデータセットを慎重にコンパイルしました。
特にLLaVA, Qwen-VL, InternLMを微調整したマルチモーダル大規模モデルで, このデータセットを用いて命令ベースの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-13T17:05:06Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - A Multimodal Knowledge-enhanced Whole-slide Pathology Foundation Model [13.96693863133633]
スライド画像全体のH&E診断と関連する病理報告とRNA-Seqデータからなる最大マルチモーダルデータセットをキュレートした。
そこで,本論文では,病的FMにマルチモーダルな知識を注入する新パラダイムを提案する。
提案したパラダイムはCPathの事前トレーニングのワークフローに革命をもたらす。
論文 参考訳(メタデータ) (2024-07-22T04:09:27Z) - FlexCare: Leveraging Cross-Task Synergy for Flexible Multimodal Healthcare Prediction [34.732561455987145]
我々は、不完全なマルチモーダル入力に柔軟に対応するために、textbfFlexCareという統合医療予測モデルを提案する。
タスクに依存しないマルチモーダル情報抽出モジュールを提示し、多様なモダリティ内およびモダリティ間パターンの非相関表現をキャプチャする。
MIMIC-IV/MIMIC-CXR/MIMIC-NOTEデータセットによる複数のタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-17T12:03:10Z) - PLUTO: Pathology-Universal Transformer [4.920983796208486]
そこで我々はPathoLogy Universal TransfOrmer (PLUTO)を提案する。
我々はPLUTOの出力埋め込みを利用したタスク固有の適応ヘッドを,病的規模にまたがるタスクに設計する。
PLUTOは既存のタスク固有のベースラインや病理学固有の基盤モデルに適合するか、性能を向上する。
論文 参考訳(メタデータ) (2024-05-13T16:40:17Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。