論文の概要: CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
- arxiv url: http://arxiv.org/abs/2409.19291v2
- Date: Wed, 2 Oct 2024 21:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 00:08:33.396898
- Title: CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
- Title(参考訳): CLIP-MoE: 多様化した多重アップサイクルによるCLIPのエキスパートの混在構築を目指す
- Authors: Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng,
- Abstract要約: コントラスト言語-画像事前学習(CLIP)はマルチモーダルインテリジェンスの基礎となっている。
DMUは、異なる特徴空間をキャプチャする一連のCLIPモデルを効率的に微調整する。
様々なゼロショット検索、ゼロショット画像分類タスクにおけるCLIP-MoEの顕著な性能を示す実験を行った。
- 参考スコア(独自算出の注目度): 21.734200158914476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Contrastive Language-Image Pre-training (CLIP) has become a cornerstone in multimodal intelligence. However, recent studies have identified that the information loss in the CLIP encoding process is substantial, and CLIP tends to capture only coarse-grained features from the input. This deficiency significantly limits the ability of a single CLIP model to handle images rich in visual detail. In this work, we propose a simple yet effective model-agnostic strategy, Diversified Multiplet Upcycling (DMU), for CLIP. DMU efficiently fine-tunes a series of CLIP models that capture different feature spaces, from a dense pre-trained CLIP checkpoint, sharing parameters except for the Feed-Forward Network (FFN). These models can then be transformed into a CLIP-MoE with a larger model capacity, leading to significantly enhanced performance with minimal computational overhead. To the best of our knowledge, Diversified Multiplet Upcycling is the first approach to introduce sparsely activated MoE into CLIP foundation models. Extensive experiments demonstrate the significant performance of CLIP-MoE across various zero-shot retrieval, zero-shot image classification tasks, and downstream Multimodal Large Language Model (MLLM) benchmarks by serving as a vision encoder. Furthermore, Diversified Multiplet Upcycling enables the conversion of any dense CLIP model into CLIP-MoEs, which can seamlessly replace CLIP in a plug-and-play manner without requiring further adaptation in downstream frameworks. Through Diversified Multiplet Upcycling, we aim to provide valuable insights for future research on developing more efficient and effective multimodal learning systems.
- Abstract(参考訳): 近年,コントラスト言語-画像事前学習(CLIP)がマルチモーダルインテリジェンスの基礎となっている。
しかし、最近の研究では、CLIP符号化プロセスにおける情報損失がかなり大きいことが確認されており、CLIPは入力から粗い特徴のみをキャプチャする傾向にある。
この欠陥は、単一のCLIPモデルが視覚的なディテールに富んだ画像を処理できることを著しく制限する。
そこで本研究では,CLIPのためのモデルに依存しないシンプルな手法であるDiversified Multiplet Upcycling(DMU)を提案する。
DMUは、高密度にトレーニングされたCLIPチェックポイントからフィードフォワードネットワーク(FFN)を除くパラメータの共有に至るまで、さまざまな特徴空間をキャプチャする一連のCLIPモデルを効率的に微調整する。
これらのモデルは、より大きなモデルキャパシティを持つCLIP-MoEに変換できるため、計算オーバーヘッドを最小限に抑えた性能が大幅に向上する。
私たちの知る限りでは、Diversified Multiplet UpcyclingはCLIPファウンデーションモデルに疎活性化されたMoEを導入する最初のアプローチです。
広汎な実験により、様々なゼロショット検索、ゼロショット画像分類タスク、下流マルチモーダル大言語モデル(MLLM)ベンチマークにおけるCLIP-MoEの性能が視覚エンコーダとして機能することを示した。
さらに、Diversified Multiplet Upcyclingでは、任意の高密度CLIPモデルをCLIP-MoEに変換することが可能で、下流フレームワークにさらなる適応を必要とせずに、プラグイン・アンド・プレイでCLIPをシームレスに置き換えることができる。
多様化したマルチモーダル・ラーニング・システムの構築をめざして,より効率的かつ効果的なマルチモーダル・ラーニング・システムの構築に向けた今後の研究に価値ある洞察を提供することを目的とする。
関連論文リスト
- LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [60.02145113467427]
この作業では、大規模な言語モデルと事前訓練されたCLIPビジュアルエンコーダを統合する、微調整のアプローチを導入している。
LLMの自己回帰的性質の課題に対処するために,キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラッシブ・ラーニング・フレームワークを提案する。
提案手法は,様々な下流タスクにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP [56.199779065855004]
CLIPEraseは視覚的・テキスト的関連を選択的に忘れる新しいアプローチである。
CIFAR-100とFlickr30Kデータセットの実験は、CLIPEraseがマルチモーダルサンプルのゼロショットタスクにおける指定された関連性を効果的に忘れていることを示している。
論文 参考訳(メタデータ) (2024-10-30T17:51:31Z) - Multi-Modal Adapter for Vision-Language Models [5.040884755454258]
CLIPのマルチモーダル適応手法であるMulti-Modal Adapterを提案する。
テキストと画像の特徴を組み合わせたトレーニング可能なマルチヘッドアテンションレイヤを追加し、両方の追加適応を生成します。
論文 参考訳(メタデータ) (2024-09-03T12:47:08Z) - Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。
CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。
自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:00:09Z) - Multimodal CLIP Inference for Meta-Few-Shot Image Classification [0.0]
CLIPのようなマルチモーダル基盤モデルは、ジョイント(イメージ、テキスト)埋め込みを学ぶ。
本研究では、CLIPのテキストと画像エンコーダのモダリティを組み合わせることで、広く採用されているベンチマークにおいて、最先端のメタファ学習者より優れていることを示す。
論文 参考訳(メタデータ) (2024-03-26T17:47:54Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - CLIP-guided Prototype Modulating for Few-shot Action Recognition [49.11385095278407]
この研究は、CLIPの強力なマルチモーダル知識を伝達して、不正確なプロトタイプ推定問題を緩和することを目的としている。
本稿では,CLIP-FSAR(CLIP-FSAR)と呼ばれるCLIP誘導型プロトタイプ変調フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-03-06T09:17:47Z) - CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth
Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。
近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。
PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。
本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文 参考訳(メタデータ) (2022-10-03T16:13:14Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Personalizing Pre-trained Models [23.145974171912414]
上流の事前訓練されたモデルが、下流のいくつかのショット、複数ラベル、連続的な学習タスクにどのように活用できるかを検討する。
私たちのモデルであるCLIPPER(CLIP PERsonalized)では,弱い自然言語による画像表現学習モデルであるCLIPのイメージ表現を使用している。
論文 参考訳(メタデータ) (2021-06-02T22:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。