Fugu-MT 論文翻訳(概要): CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling

論文の概要: CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling

arxiv url: http://arxiv.org/abs/2409.19291v2
Date: Wed, 2 Oct 2024 21:50:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 00:08:33.396898
Title: CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling
Title（参考訳）: CLIP-MoE: 多様化した多重アップサイクルによるCLIPのエキスパートの混在構築を目指す
Authors: Jihai Zhang, Xiaoye Qu, Tong Zhu, Yu Cheng,
Abstract要約: コントラスト言語-画像事前学習(CLIP)はマルチモーダルインテリジェンスの基礎となっている。 DMUは、異なる特徴空間をキャプチャする一連のCLIPモデルを効率的に微調整する。様々なゼロショット検索、ゼロショット画像分類タスクにおけるCLIP-MoEの顕著な性能を示す実験を行った。
参考スコア（独自算出の注目度）: 21.734200158914476
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, Contrastive Language-Image Pre-training (CLIP) has become a cornerstone in multimodal intelligence. However, recent studies have identified that the information loss in the CLIP encoding process is substantial, and CLIP tends to capture only coarse-grained features from the input. This deficiency significantly limits the ability of a single CLIP model to handle images rich in visual detail. In this work, we propose a simple yet effective model-agnostic strategy, Diversified Multiplet Upcycling (DMU), for CLIP. DMU efficiently fine-tunes a series of CLIP models that capture different feature spaces, from a dense pre-trained CLIP checkpoint, sharing parameters except for the Feed-Forward Network (FFN). These models can then be transformed into a CLIP-MoE with a larger model capacity, leading to significantly enhanced performance with minimal computational overhead. To the best of our knowledge, Diversified Multiplet Upcycling is the first approach to introduce sparsely activated MoE into CLIP foundation models. Extensive experiments demonstrate the significant performance of CLIP-MoE across various zero-shot retrieval, zero-shot image classification tasks, and downstream Multimodal Large Language Model (MLLM) benchmarks by serving as a vision encoder. Furthermore, Diversified Multiplet Upcycling enables the conversion of any dense CLIP model into CLIP-MoEs, which can seamlessly replace CLIP in a plug-and-play manner without requiring further adaptation in downstream frameworks. Through Diversified Multiplet Upcycling, we aim to provide valuable insights for future research on developing more efficient and effective multimodal learning systems.
Abstract（参考訳）: 近年,コントラスト言語-画像事前学習(CLIP)がマルチモーダルインテリジェンスの基礎となっている。しかし、最近の研究では、CLIP符号化プロセスにおける情報損失がかなり大きいことが確認されており、CLIPは入力から粗い特徴のみをキャプチャする傾向にある。この欠陥は、単一のCLIPモデルが視覚的なディテールに富んだ画像を処理できることを著しく制限する。そこで本研究では,CLIPのためのモデルに依存しないシンプルな手法であるDiversified Multiplet Upcycling(DMU)を提案する。 DMUは、高密度にトレーニングされたCLIPチェックポイントからフィードフォワードネットワーク(FFN)を除くパラメータの共有に至るまで、さまざまな特徴空間をキャプチャする一連のCLIPモデルを効率的に微調整する。これらのモデルは、より大きなモデルキャパシティを持つCLIP-MoEに変換できるため、計算オーバーヘッドを最小限に抑えた性能が大幅に向上する。私たちの知る限りでは、Diversified Multiplet UpcyclingはCLIPファウンデーションモデルに疎活性化されたMoEを導入する最初のアプローチです。広汎な実験により、様々なゼロショット検索、ゼロショット画像分類タスク、下流マルチモーダル大言語モデル(MLLM)ベンチマークにおけるCLIP-MoEの性能が視覚エンコーダとして機能することを示した。さらに、Diversified Multiplet Upcyclingでは、任意の高密度CLIPモデルをCLIP-MoEに変換することが可能で、下流フレームワークにさらなる適応を必要とせずに、プラグイン・アンド・プレイでCLIPをシームレスに置き換えることができる。多様化したマルチモーダル・ラーニング・システムの構築をめざして,より効率的かつ効果的なマルチモーダル・ラーニング・システムの構築に向けた今後の研究に価値ある洞察を提供することを目的とする。

関連論文リスト

DiffCLIP: Differential Attention Meets CLIP [57.396578974401734]
本稿では,CLIPアーキテクチャに差分アテンション機構を拡張する新しい視覚言語モデルであるDiffCLIPを提案する。最小限の追加パラメータで、DiffCLIPは画像テキスト理解タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-09T14:04:09Z)
CLIP-UP: A Simple and Efficient Mixture-of-Experts CLIP Training Recipe with Sparse Upcycling [21.65268178160724]
Mixture-of-Experts(MoE)モデルは、推論コストを制御しながらモデルキャパシティのスケーリングに不可欠である。 CLIP-Upcycling(CLIP-UP)は,事前学習したCLIPモデルをスパースMoEアーキテクチャに変換する,効率的な代替トレーニング戦略である。
論文参考訳（メタデータ） (2025-02-03T00:04:50Z)
Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文参考訳（メタデータ） (2024-11-27T18:50:15Z)
LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [60.02145113467427]
この作業では、大規模な言語モデルと事前訓練されたCLIPビジュアルエンコーダを統合する、微調整のアプローチを導入している。 LLMの自己回帰的性質の課題に対処するために,キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラッシブ・ラーニング・フレームワークを提案する。提案手法は,様々な下流タスクにおいて,大幅な性能向上を実現する。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP [56.199779065855004]
CLIPEraseは視覚的・テキスト的関連を選択的に忘れる新しいアプローチである。 CIFAR-100とFlickr30Kデータセットの実験は、CLIPEraseがマルチモーダルサンプルのゼロショットタスクにおける指定された関連性を効果的に忘れていることを示している。
論文参考訳（メタデータ） (2024-10-30T17:51:31Z)
Multi-Modal Adapter for Vision-Language Models [5.040884755454258]
CLIPのマルチモーダル適応手法であるMulti-Modal Adapterを提案する。テキストと画像の特徴を組み合わせたトレーニング可能なマルチヘッドアテンションレイヤを追加し、両方の追加適応を生成します。
論文参考訳（メタデータ） (2024-09-03T12:47:08Z)
Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。 CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文参考訳（メタデータ） (2024-07-29T17:00:09Z)
Multimodal CLIP Inference for Meta-Few-Shot Image Classification [0.0]
CLIPのようなマルチモーダル基盤モデルは、ジョイント(イメージ、テキスト)埋め込みを学ぶ。本研究では、CLIPのテキストと画像エンコーダのモダリティを組み合わせることで、広く採用されているベンチマークにおいて、最先端のメタファ学習者より優れていることを示す。
論文参考訳（メタデータ） (2024-03-26T17:47:54Z)
Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。 CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文参考訳（メタデータ） (2023-11-07T07:27:16Z)
CLIP-guided Prototype Modulating for Few-shot Action Recognition [49.11385095278407]
この研究は、CLIPの強力なマルチモーダル知識を伝達して、不正確なプロトタイプ推定問題を緩和することを目的としている。本稿では,CLIP-FSAR(CLIP-FSAR)と呼ばれるCLIP誘導型プロトタイプ変調フレームワークについて述べる。
論文参考訳（メタデータ） (2023-03-06T09:17:47Z)
CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。 PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文参考訳（メタデータ） (2022-10-03T16:13:14Z)
Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文参考訳（メタデータ） (2022-07-26T05:19:16Z)
Personalizing Pre-trained Models [23.145974171912414]
上流の事前訓練されたモデルが、下流のいくつかのショット、複数ラベル、連続的な学習タスクにどのように活用できるかを検討する。私たちのモデルであるCLIPPER(CLIP PERsonalized)では,弱い自然言語による画像表現学習モデルであるCLIPのイメージ表現を使用している。
論文参考訳（メタデータ） (2021-06-02T22:58:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。