論文の概要: Contrastive Regularization over LoRA for Multimodal Biomedical Image Incremental Learning
- arxiv url: http://arxiv.org/abs/2508.11673v1
- Date: Fri, 08 Aug 2025 01:10:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-24 10:27:26.497842
- Title: Contrastive Regularization over LoRA for Multimodal Biomedical Image Incremental Learning
- Title(参考訳): マルチモーダル・バイオメディカル・イメージインクリメンタル・ラーニングのためのLoRA上のコントラスト正規化
- Authors: Haojie Zhang, Yixiong Liang, Hulin Kuang, Lihui Cen, Zhe Qu, Yigang Cen, Min Zeng, Shichao Kan,
- Abstract要約: 本手法は,モーダリティ内知識の共有性を高めるために,コントラスト正規化を取り入れつつ,モーダリティ特化LoRAモジュールを微調整する手法であるMSLoRA-CRを提案する。
提案手法は大規模視覚言語モデル(LVLM)上に構築され,事前学習したモデルを凍結させつつ,各モータリティやタスクに対して新たなLoRAモジュールを漸進的に適用する。
MSLoRA-CRは、制約なしのインクリメンタル学習法に比べて、全体的なパフォーマンスが1.88%向上している。
- 参考スコア(独自算出の注目度): 20.477130873035534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Biomedical Image Incremental Learning (MBIIL) is essential for handling diverse tasks and modalities in the biomedical domain, as training separate models for each modality or task significantly increases inference costs. Existing incremental learning methods focus on task expansion within a single modality, whereas MBIIL seeks to train a unified model incrementally across modalities. The MBIIL faces two challenges: I) How to preserve previously learned knowledge during incremental updates? II) How to effectively leverage knowledge acquired from existing modalities to support new modalities? To address these challenges, we propose MSLoRA-CR, a method that fine-tunes Modality-Specific LoRA modules while incorporating Contrastive Regularization to enhance intra-modality knowledge sharing and promote inter-modality knowledge differentiation. Our approach builds upon a large vision-language model (LVLM), keeping the pretrained model frozen while incrementally adapting new LoRA modules for each modality or task. Experiments on the incremental learning of biomedical images demonstrate that MSLoRA-CR outperforms both the state-of-the-art (SOTA) approach of training separate models for each modality and the general incremental learning method (incrementally fine-tuning LoRA). Specifically, MSLoRA-CR achieves a 1.88% improvement in overall performance compared to unconstrained incremental learning methods while maintaining computational efficiency. Our code is publicly available at https://github.com/VentusAislant/MSLoRA_CR.
- Abstract(参考訳): マルチモーダル・バイオメディカル・イメージ・インクリメンタル・ラーニング(MBIIL)はバイオメディカル領域における多様なタスクやモダリティを扱うために不可欠である。
既存のインクリメンタルラーニング手法は単一モード内でのタスク拡張に重点を置いているのに対し、MBIILはモダリティ間でインクリメンタルに統一モデルをトレーニングしようとしている。
MBIILは2つの課題に直面している。
II)新しいモダリティを支援するために既存のモダリティから得た知識を効果的に活用する方法。
これらの課題に対処するため,モダリティ内知識の共有性を高め,モダリティ間知識の差別化を促進するために,コントラスト正規化を取り入れつつ,モダリティ特化LoRAモジュールを微調整する手法であるMSLoRA-CRを提案する。
提案手法は大規模視覚言語モデル(LVLM)上に構築され,事前学習したモデルを凍結させつつ,各モータリティやタスクに対して新たなLoRAモジュールを漸進的に適用する。
生体医用画像の漸進的学習実験により、MSLoRA-CRは各モードの個別モデルをトレーニングするための最先端(SOTA)アプローチと一般的な漸進的学習法(増分微調整LoRA)の両方に優れることを示した。
特に、MSLoRA-CRは、計算効率を保ちながら、制約のない漸進的学習法と比較して、全体的な性能が1.88%向上した。
私たちのコードはhttps://github.com/VentusAislant/MSLoRA_CRで公開されています。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Harmony: A Unified Framework for Modality Incremental Learning [81.13765007314781]
本稿では,連続的に進化するモーダルシーケンスを横断するインクリメンタル学習が可能な統一モデルの実現可能性について検討する。
本研究では,適応的アライメントと知識保持を実現するために,Harmonyという新しいフレームワークを提案する。
提案手法は適応性のある特徴変調と累積的モーダルブリッジングを導入する。
論文 参考訳(メタデータ) (2025-04-17T06:35:01Z) - Multimodal Fusion Balancing Through Game-Theoretic Regularization [22.959030061257533]
アンサンブルのような単純なベースラインを超越したマルチモーダルモデルの訓練には,現在のバランス手法が苦戦していることを示す。
マルチモーダルトレーニングにおけるすべてのモダリティが十分にトレーニングされていること、新しいモダリティからの学習が一貫してパフォーマンスを改善することを保証するにはどうすればよいのか?
本稿では,相互情報(MI)分解にインスパイアされた新たな損失成分であるMCRを提案する。
論文 参考訳(メタデータ) (2024-11-11T19:53:05Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - ModalPrompt:Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models [40.7613157799378]
大規模マルチモーダルモデル(LMM)は、混合データセットを共同で学習することで、顕著なマルチタスク能力を示す。
既存の手法はデータ再生やモデル拡張を利用しており、どちらもLMM用に特別に開発されていない。
本稿では,マルチモーダル連続学習に適した新しいデュアルモーダル誘導型プロンプト学習フレームワーク(ModalPrompt)を提案する。
論文 参考訳(メタデータ) (2024-10-08T09:35:37Z) - ReconBoost: Boosting Can Achieve Modality Reconcilement [89.4377895465204]
我々は、調和を達成するために、モダリティ代替学習パラダイムについて研究する。
固定モードを毎回更新するReconBoostと呼ばれる新しい手法を提案する。
提案手法はFriedman's Gradient-Boosting (GB) アルゴリズムに似ており,更新された学習者が他者による誤りを訂正できることを示す。
論文 参考訳(メタデータ) (2024-05-15T13:22:39Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Multi-Modal Learning with Uni-Modal Teachers [14.917618203952479]
そこで本研究では,融合目標と一様蒸留を組み合わせたマルチモーダル学習手法Uni-Modal Teacherを提案する。
提案手法は,各モードの表現を劇的に改善するだけでなく,総合的なマルチモーダルタスク性能も向上することを示す。
論文 参考訳(メタデータ) (2021-06-21T12:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。