論文の概要: Boosting Medical Vision-Language Pretraining via Momentum Self-Distillation under Limited Computing Resources
- arxiv url: http://arxiv.org/abs/2512.02438v1
- Date: Tue, 02 Dec 2025 05:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.737127
- Title: Boosting Medical Vision-Language Pretraining via Momentum Self-Distillation under Limited Computing Resources
- Title(参考訳): 医療ビジョンの強化 : 限られた計算資源下でのモーメント・セルフ蒸留による事前訓練
- Authors: Phuc Pham, Nhu Pham, Ngoc Quoc Ly,
- Abstract要約: 医療分野では、詳細なアノテーションを取得することは困難であり、堅牢なビジョンランゲージモデル(VLM)の必要性を強調している。
本稿では, 蒸留と組み合わされたモーメント法を活用し, 計算効率と知識活用の両立に着目する。
提案手法は,ゼロショット分類における最新技術(SOTA)アプローチとの競争性能を向上するとともに,少数ショット適応の大幅な向上を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In medical healthcare, obtaining detailed annotations is challenging, highlighting the need for robust Vision-Language Models (VLMs). Pretrained VLMs enable fine-tuning on small datasets or zero-shot inference, achieving performance comparable to task-specific models. Contrastive learning (CL) is a key paradigm for training VLMs but inherently requires large batch sizes for effective learning, making it computationally demanding and often limited to well-resourced institutions. Moreover, with limited data in healthcare, it is important to prioritize knowledge extraction from both data and models during training to improve performance. Therefore, we focus on leveraging the momentum method combined with distillation to simultaneously address computational efficiency and knowledge exploitation. Our contributions can be summarized as follows: (1) leveraging momentum self-distillation to enhance multimodal learning, and (2) integrating momentum mechanisms with gradient accumulation to enlarge the effective batch size without increasing resource consumption. Our method attains competitive performance with state-of-the-art (SOTA) approaches in zero-shot classification, while providing a substantial boost in the few-shot adaption, achieving over 90% AUC-ROC and improving retrieval tasks by 2-3%. Importantly, our method achieves high training efficiency with a single GPU while maintaining reasonable training time. Our approach aims to advance efficient multimodal learning by reducing resource requirements while improving performance over SOTA methods. The implementation of our method is available at https://github.com/phphuc612/MSD .
- Abstract(参考訳): 医療分野では、詳細なアノテーションを取得することは困難であり、堅牢なビジョンランゲージモデル(VLM)の必要性を強調している。
事前トレーニングされたVLMは、小さなデータセットやゼロショット推論の微調整を可能にし、タスク固有のモデルに匹敵するパフォーマンスを達成する。
コントラスト学習(CL)は、VLMを訓練するための重要なパラダイムであるが、本質的には効果的な学習のために大きなバッチサイズを必要とするため、計算的に要求され、よく調達された機関に限られる。
さらに、医療における限られたデータでは、トレーニング中にデータとモデルの両方から知識抽出を優先し、パフォーマンスを向上させることが重要である。
そこで本研究では, 蒸留と組み合わされたモーメント法を利用して, 計算効率と知識の活用を同時に行うことに焦点を当てた。
コントリビューションは,(1)モーメント自己蒸留を利用してマルチモーダル学習を強化し,(2)モーメント機構と勾配蓄積を統合して,資源消費を増大させることなく有効バッチサイズを拡大する。
提案手法は, ゼロショット分類における最先端(SOTA)アプローチとの競争性能を向上するとともに, 90%以上のAUC-ROCを達成し, 検索タスクを2~3%向上させる。
重要なこととして,本手法は,適切なトレーニング時間を維持しつつ,単一のGPUで高いトレーニング効率を達成する。
提案手法は,SOTA法よりも性能を向上しつつ,リソース要求を低減し,効率的なマルチモーダル学習を実現することを目的としている。
私たちのメソッドの実装はhttps://github.com/phphuc612/MSDで公開されています。
関連論文リスト
- Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding [53.18433310890516]
視覚言語モデルは、伝達可能なセマンティック埋め込みを取得することでマルチモーダル表現学習を進める。
コントラスト学習のウォームアップ段階として機能する圧縮プレトレーニングフェーズであるCoMaを提案する。
論文 参考訳(メタデータ) (2025-11-11T17:23:02Z) - The Path of Self-Evolving Large Language Models: Achieving Data-Efficient Learning via Intrinsic Feedback [51.144727949988436]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める可能性を実証した。
本研究では,最小限のデータを用いたLLによるLLMの改善について検討する。
データ依存を最小限に抑えるため、自己認識に基礎を置いた2つの新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2025-10-03T06:32:10Z) - Investigating Structural Pruning and Recovery Techniques for Compressing Multimodal Large Language Models: An Empirical Study [64.26593350748401]
MLLM(Multimodal Large Language Models)は印象的な機能を示す。
SLM(Small Language Models)からのMLLMの学習を主とするパラメータ削減技術
本稿では, 構造物の刈り込みと効率的な回復訓練を組み合わせることで, 既存のMLLMを直接圧縮することを提案する。
論文 参考訳(メタデータ) (2025-07-28T11:57:52Z) - Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - CLIP-CID: Efficient CLIP Distillation via Cluster-Instance Discrimination [28.061239778773423]
CLIP(Contrastive Language- Image Pre-Training)は、幅広いタスクにおいて優れたパフォーマンスを実現している。
CLIPは事前学習データのかなりのコーパスに大きく依存しており、計算資源を消費している。
CLIP-CID(CLIP-CID)は,大規模視覚言語基礎モデルからより小さなモデルへ知識を効果的に伝達する蒸留機構である。
論文 参考訳(メタデータ) (2024-08-18T11:23:21Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Multimodal Deep Learning for Low-Resource Settings: A Vector Embedding Alignment Approach for Healthcare Applications [3.2549142515720044]
ベクトル埋め込みを利用して、柔軟で効率的な計算手法を実現することを提唱する。
本稿では,単一モード基礎モデルと多モード視覚言語モデルを用いたベクトル埋め込みの有効性について検討する。
画像テキストの埋め込みを整列させることにより性能を向上させるための,単純かつ効果的な推論時間法を提案する。
論文 参考訳(メタデータ) (2024-06-02T01:13:01Z) - Less for More: Enhanced Feedback-aligned Mixed LLMs for Molecule Caption Generation and Fine-Grained NLI Evaluation [11.778576032848482]
この研究は、最小または追加の訓練を伴わずに、推論と評価能力を改善することで、科学的言語モデルを強化する。
このような手法の動作と適合性に関する興味深い洞察を明らかにしながら、最先端のモデルを大幅に超えている。
そこで本研究では,未知の化学領域で使用するために,市販の自然言語推論(NLI)モデルを利用した新しい原子レベル評価手法を提案する。
論文 参考訳(メタデータ) (2024-05-22T20:40:53Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。