論文の概要: ModalTune: Fine-Tuning Slide-Level Foundation Models with Multi-Modal Information for Multi-task Learning in Digital Pathology
- arxiv url: http://arxiv.org/abs/2503.17564v1
- Date: Fri, 21 Mar 2025 22:50:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:37:18.779596
- Title: ModalTune: Fine-Tuning Slide-Level Foundation Models with Multi-Modal Information for Multi-task Learning in Digital Pathology
- Title(参考訳): ModalTune:デジタル病理学におけるマルチタスク学習のためのマルチモーダル情報を用いた微調整スライドレベル基礎モデル
- Authors: Vishwesh Ramanathan, Tony Xu, Pushpak Pati, Faruk Ahmed, Maged Goubran, Anne L. Martel,
- Abstract要約: 本稿では,デジタル病理予測タスクのためのファインチューニングフレームワークであるModalTuneを提案する。
ModalTuneはSLFM重みを変更することなく新しいモダリティを統合する。
ModalTuneは2つのアウト・オブ・ディストリビューション(OOD)データセットに非常に一般化可能であることを示す。
- 参考スコア(独自算出の注目度): 3.17215168522345
- License:
- Abstract: Prediction tasks in digital pathology are challenging due to the massive size of whole-slide images (WSIs) and the weak nature of training signals. Advances in computing, data availability, and self-supervised learning (SSL) have paved the way for slide-level foundation models (SLFMs) that can improve prediction tasks in low-data regimes. However, working with these models is challenging, with issues such as catastrophic forgetting during fine-tuning and under-utilization of shared information between tasks and modalities. To overcome these two challenges, we propose ModalTune, a novel fine-tuning framework which introduces the Modal Adapter to integrate new modalities without modifying SLFM weights. Additionally, we use large-language models (LLMs) to encode labels as text, capturing semantic relationships and enhancing generalization across multiple tasks and cancer types in a single training recipe. ModalTune achieves state-of-the-art (SOTA) results against both uni-modal and multi-modal models across four cancer types, jointly improving survival and cancer subtype prediction while remaining competitive in pan-cancer settings. Additionally, we show ModalTune is highly generalizable to two out-of-distribution (OOD) datasets. To our knowledge, this is the first unified fine-tuning framework for multi-modal, multi-task, and pan-cancer modeling in digital pathology.
- Abstract(参考訳): デジタル病理学における予測タスクは、全スライディング画像(WSI)の巨大サイズと訓練信号の弱い性質のために困難である。
コンピューティング、データ可用性、自己教師付き学習(SSL)の進歩は、低データのレシエーションにおける予測タスクを改善するスライドレベル基礎モデル(SLFM)の道を開いた。
しかし、微調整中の破滅的な忘れ込みやタスクとモダリティ間の情報の共有化といった問題など、これらのモデルを扱うのは困難である。
この2つの課題を克服するために,SLFM重みを変更することなく新たなモダリティを統合するためのモダリティアダプタを導入した,新しい微調整フレームワークであるModalTuneを提案する。
さらに、大規模言語モデル(LLM)を用いてラベルをテキストとしてエンコードし、意味的関係を捉え、複数のタスクやがんタイプにわたる一般化を1つのトレーニングレシピで強化する。
ModalTuneは、4つのがんタイプにわたる一様モデルと多様モデルの両方に対して最先端のSOTA(State-of-the-art)結果を達成する。
さらに、ModalTuneは2つのアウト・オブ・ディストリビューション(OOD)データセットに非常に一般化可能であることを示す。
我々の知る限り、これはデジタル病理学におけるマルチモーダル、マルチタスク、パンカンサーモデリングのための最初の統合された微調整フレームワークである。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Double Banking on Knowledge: Customized Modulation and Prototypes for Multi-Modality Semi-supervised Medical Image Segmentation [20.749081083620016]
マルチモダリティ(MM)半教師あり学習(SSL)に基づく医用画像セグメンテーションは近年注目を集めている。
しかし、現在の手法にはいくつかの課題がある。
本稿では,医療画像セグメンテーションのための新しいMM-SSLアプローチであるDouble Bank Dual Consistency (DBDC)を提案する。
論文 参考訳(メタデータ) (2024-10-23T05:19:20Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - HyperMM : Robust Multimodal Learning with Varying-sized Inputs [4.377889826841039]
HyperMMは、さまざまなサイズの入力で学習するために設計されたエンドツーエンドフレームワークである。
本稿では,条件付きハイパーネットワークを用いたユニバーサル特徴抽出器のトレーニング手法を提案する。
アルツハイマー病の診断と乳癌の分類の2つの課題において,本手法の利点を実験的に実証した。
論文 参考訳(メタデータ) (2024-07-30T12:13:18Z) - MM-Lego: Modular Biomedical Multimodal Models with Minimal Fine-Tuning [10.774128925670183]
マルチモーダルレゴ(MM-Lego)は、モジュール式で汎用的な融合およびモデルマージフレームワークである。
本研究では,MM-Legoをモデルマージ法としてエンド・ツー・エンドの融合モデルと組み合わせることができることを示す。
6つのベンチマークされたマルチモーダルバイオメディカルタスクに対して、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-05-30T11:14:01Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。