論文の概要: Extracting Multimodal Learngene in CLIP: Unveiling the Multimodal Generalizable Knowledge
- arxiv url: http://arxiv.org/abs/2506.16673v1
- Date: Fri, 20 Jun 2025 01:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.300919
- Title: Extracting Multimodal Learngene in CLIP: Unveiling the Multimodal Generalizable Knowledge
- Title(参考訳): CLIPにおけるマルチモーダル学習遺伝子抽出:多モーダル一般化可能な知識の解明
- Authors: Ruiming Chen, Junming Yang, Shiyu Xia, Xu Yang, Jing Wang, Xin Geng,
- Abstract要約: MM-LG(Multimodal Learngene)はCLIPから一般化可能なコンポーネントを抽出し活用するための新しいフレームワークである。
MM-LGはパラメータストレージの25%しか必要とせず、様々なモデルスケールのトレーニング前コストの約2.8倍を削減している。
- 参考スコア(独自算出の注目度): 37.619490994606174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CLIP (Contrastive Language-Image Pre-training) has attracted widespread attention for its multimodal generalizable knowledge, which is significant for downstream tasks. However, the computational overhead of a large number of parameters and large-scale pre-training poses challenges of pre-training a different scale of CLIP. Learngene extracts the generalizable components termed as learngene from an ancestry model and initializes diverse descendant models with it. Previous Learngene paradigms fail to handle the generalizable knowledge in multimodal scenarios. In this paper, we put forward the idea of utilizing a multimodal block to extract the multimodal generalizable knowledge, which inspires us to propose MM-LG (Multimodal Learngene), a novel framework designed to extract and leverage generalizable components from CLIP. Specifically, we first establish multimodal and unimodal blocks to extract the multimodal and unimodal generalizable knowledge in a weighted-sum manner. Subsequently, we employ these components to numerically initialize descendant models of varying scales and modalities. Extensive experiments demonstrate MM-LG's effectiveness, which achieves performance gains over existing learngene approaches (e.g.,+3.1% on Oxford-IIIT PET and +4.13% on Flickr30k) and comparable or superior results to the pre-training and fine-tuning paradigm (e.g.,+1.9% on Oxford-IIIT PET and +3.65% on Flickr30k). Notably, MM-LG requires only around 25% of the parameter storage while reducing around 2.8 times pre-training costs for diverse model scales compared to the pre-training and fine-tuning paradigm, making it particularly suitable for efficient deployment across diverse downstream tasks.
- Abstract(参考訳): CLIP(Contrastive Language- Image Pre-training)は、下流タスクにおいて重要なマルチモーダル一般化可能な知識として広く注目を集めている。
しかし、多数のパラメータと大規模事前学習の計算オーバーヘッドは、異なるスケールのCLIPを事前学習する上での課題となっている。
Learngeneは、祖先モデルからLearnergeneと呼ばれる一般化可能なコンポーネントを抽出し、それを使って様々な子孫モデルを初期化する。
これまでのLearnergeneパラダイムは、マルチモーダルシナリオにおける一般化可能な知識を処理できない。
本稿では,多モーダルブロックを利用して多モーダル一般化可能な知識を抽出し,CLIPから一般化可能なコンポーネントを抽出・活用する新しいフレームワークであるMM-LG(Multimodal Learngene)を提案する。
具体的には、まずマルチモーダルブロックとユニモーダルブロックを構築し、重み付きサム方式で多モーダルおよびユニモーダル一般化可能な知識を抽出する。
その後、これらの成分を用いて、様々なスケールとモダリティの子孫モデルを数値的に初期化する。
MM-LGの有効性は、既存の学習遺伝子アプローチ(例えば、Oxford-IIIT PETで+3.1%、Flickr30kで+4.13%)よりも向上し、事前学習と微調整のパラダイム(例、Oxford-IIIT PETで+1.9%、Flickr30kで+3.65%)に匹敵する結果または優れた結果をもたらす。
特にMM-LGはパラメータストレージの25%程度しか必要とせず、様々なモデルスケールのトレーニング前のコストを事前訓練や微調整のパラダイムと比べて約2.8倍削減する。
関連論文リスト
- Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。
我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。
また,Mixture of Experts(MoEs)を組み込むことで,モダリティ固有の重みを学習し,性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2025-04-10T17:57:28Z) - Dynamic Self-adaptive Multiscale Distillation from Pre-trained Multimodal Large Model for Efficient Cross-modal Representation Learning [12.00246872965739]
本稿では,事前学習型マルチモーダル大モデルを用いた動的自己適応型マルチスケール蒸留法を提案する。
我々の戦略は、事前訓練されたマルチモーダル大モデルから構造的知識を抽出できる、マルチスケールな視点を用いている。
提案手法は,出力特徴とオリジナル画像レベル情報のみを用いて,事前学習したマルチモーダル大規模モデルを合理化する。
論文 参考訳(メタデータ) (2024-04-16T18:22:49Z) - VideoAdviser: Video Knowledge Distillation for Multimodal Transfer
Learning [6.379202839994046]
マルチモーダル変換学習は、様々なモーダルの事前訓練された表現を、効果的なマルチモーダル融合のための共通の領域空間に変換することを目的としている。
本稿では,マルチモーダル基本モデルから特定のモーダル基本モデルへ,マルチモーダルなプロンプトのマルチモーダルな知識を伝達するためのビデオ知識蒸留手法であるVideoAdviserを提案する。
本手法は,映像レベルの感情分析と音声視覚検索の2つの課題において評価する。
論文 参考訳(メタデータ) (2023-09-27T08:44:04Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。