論文の概要: Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture
of Experts
- arxiv url: http://arxiv.org/abs/2206.02770v1
- Date: Mon, 6 Jun 2022 17:51:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 17:18:43.443279
- Title: Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture
of Experts
- Title(参考訳): limoeを用いたマルチモーダルコントラスト学習:専門家の言語・画像混合
- Authors: Basil Mustafa, Carlos Riquelme, Joan Puigcerver, Rodolphe Jenatton and
Neil Houlsby
- Abstract要約: マルチモーダル学習が可能なエキスパートモデルの疎結合であるLanguage-Image MoE, LIMoEを提案する。
LIMoEは画像とテキストを同時に受け入れ、対照的な損失で訓練される。
複数のスケールにまたがって、等価計算コストの高密度モデルよりも顕著な性能向上を示す。
- 参考スコア(独自算出の注目度): 26.041404520616073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large sparsely-activated models have obtained excellent performance in
multiple domains. However, such models are typically trained on a single
modality at a time. We present the Language-Image MoE, LIMoE, a sparse mixture
of experts model capable of multimodal learning. LIMoE accepts both images and
text simultaneously, while being trained using a contrastive loss. MoEs are a
natural fit for a multimodal backbone, since expert layers can learn an
appropriate partitioning of modalities. However, new challenges arise; in
particular, training stability and balanced expert utilization, for which we
propose an entropy-based regularization scheme. Across multiple scales, we
demonstrate remarkable performance improvement over dense models of equivalent
computational cost. LIMoE-L/16 trained comparably to CLIP-L/14 achieves 78.6%
zero-shot ImageNet accuracy (vs. 76.2%), and when further scaled to H/14 (with
additional data) it achieves 84.1%, comparable to state-of-the-art methods
which use larger custom per-modality backbones and pre-training schemes. We
analyse the quantitative and qualitative behavior of LIMoE, and demonstrate
phenomena such as differing treatment of the modalities and the organic
emergence of modality-specific experts.
- Abstract(参考訳): 大規模な疎活性化モデルでは、複数の領域で優れた性能が得られる。
しかし、そのようなモデルは一般に一度に一つのモダリティで訓練される。
マルチモーダル学習が可能なエキスパートモデルの疎結合であるLanguage-Image MoE, LIMoEを提案する。
LIMoEは画像とテキストを同時に受け入れ、対照的な損失で訓練される。
moesは、専門家層が適切なモーダル分割を学習できるため、マルチモーダルバックボーンに自然に適合する。
しかし、特に、エントロピーに基づく正規化スキームを提案する訓練安定性とバランスの取れた専門家利用という新たな課題が生じる。
複数のスケールで、等価計算コストの高密度モデルよりも顕著な性能向上を示す。
LIMoE-L/16はCLIP-L/14と同等に訓練され、78.6%のゼロショットイメージネット精度(vs.76.2%)を獲得し、さらにH/14にスケールすると84.1%に達する。
LIMoEの量的・質的挙動を解析し,モダリティの異なる処理や,モダリティ特異的な専門家の有機的出現といった現象を実証する。
関連論文リスト
- Multilinear Mixture of Experts: Scalable Expert Specialization through
Factorization [54.227054670896884]
大きな問題は、十分にきめ細かい特殊化を達成するために専門家の数をスケーリングする計算コストである。
本稿では,MMOE(Multilinear Mixutre of Experts)層を提案する。
視覚タスクの微調整基礎モデルにおけるMMoE層のスケーリングは,クラスレベルでより専門的な専門家に導かれるという,定性的かつ定量的な証拠を提示する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of
Low-rank Experts [79.82187318830955]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - Diversifying the Mixture-of-Experts Representation for Language Models
with Orthogonal Optimizer [62.41501243027603]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,エキスパートエンティティであるOMoEという,単純かつ高効率なソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Transferring Pre-trained Multimodal Representations with Cross-modal
Similarity Matching [49.730741713652435]
本論文では,大規模な事前学習型マルチモーダルモデルの表現を,小さなターゲットモデルに効果的に転送する手法を提案する。
教師なしトランスファーでは,教師モデルの表現を学習できるクロスモーダル類似性マッチング(CSM)を導入する。
テキストプロンプトをよりよくエンコードするために、入力テキストプロンプトの語彙的曖昧さを軽減するコンテキストベースのプロンプト拡張(CPA)を設計する。
論文 参考訳(メタデータ) (2023-01-07T17:24:11Z) - MuMIC -- Multimodal Embedding for Multi-label Image Classification with
Tempered Sigmoid [1.1452732046200158]
マルチモーダル・ラーニング・アプローチは画像表現とシングルラベル画像分類において,近年顕著な成果を上げている。
硬度認識型シグモノイドをベースとしたバイナリクロスエントロピー損失関数を用いたマルチモーダルマルチラベル画像分類(MuMIC)フレームワークを提案する。
MuMICは高い分類性能を提供し、現実世界のノイズデータを処理し、ゼロショット予測をサポートし、ドメイン固有の画像埋め込みを生成する。
論文 参考訳(メタデータ) (2022-11-02T17:29:35Z) - Geodesic Multi-Modal Mixup for Robust Fine-Tuning [21.298732743643168]
微調整後でもCLIPは均一性や整列性に乏しいことが判明した。
画像とテキストの埋め込みを混合してハードネガティブなサンプルを生成するジオデシック・マルチモーダル・ミックスアップを提案する。
本手法は,多種多様なタスクに対するロバストなモデル適応を実現するため,転送可能な表現を提供する。
論文 参考訳(メタデータ) (2022-03-08T07:34:52Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。