論文の概要: Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture
of Experts
- arxiv url: http://arxiv.org/abs/2206.02770v1
- Date: Mon, 6 Jun 2022 17:51:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 17:18:43.443279
- Title: Multimodal Contrastive Learning with LIMoE: the Language-Image Mixture
of Experts
- Title(参考訳): limoeを用いたマルチモーダルコントラスト学習:専門家の言語・画像混合
- Authors: Basil Mustafa, Carlos Riquelme, Joan Puigcerver, Rodolphe Jenatton and
Neil Houlsby
- Abstract要約: マルチモーダル学習が可能なエキスパートモデルの疎結合であるLanguage-Image MoE, LIMoEを提案する。
LIMoEは画像とテキストを同時に受け入れ、対照的な損失で訓練される。
複数のスケールにまたがって、等価計算コストの高密度モデルよりも顕著な性能向上を示す。
- 参考スコア(独自算出の注目度): 26.041404520616073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large sparsely-activated models have obtained excellent performance in
multiple domains. However, such models are typically trained on a single
modality at a time. We present the Language-Image MoE, LIMoE, a sparse mixture
of experts model capable of multimodal learning. LIMoE accepts both images and
text simultaneously, while being trained using a contrastive loss. MoEs are a
natural fit for a multimodal backbone, since expert layers can learn an
appropriate partitioning of modalities. However, new challenges arise; in
particular, training stability and balanced expert utilization, for which we
propose an entropy-based regularization scheme. Across multiple scales, we
demonstrate remarkable performance improvement over dense models of equivalent
computational cost. LIMoE-L/16 trained comparably to CLIP-L/14 achieves 78.6%
zero-shot ImageNet accuracy (vs. 76.2%), and when further scaled to H/14 (with
additional data) it achieves 84.1%, comparable to state-of-the-art methods
which use larger custom per-modality backbones and pre-training schemes. We
analyse the quantitative and qualitative behavior of LIMoE, and demonstrate
phenomena such as differing treatment of the modalities and the organic
emergence of modality-specific experts.
- Abstract(参考訳): 大規模な疎活性化モデルでは、複数の領域で優れた性能が得られる。
しかし、そのようなモデルは一般に一度に一つのモダリティで訓練される。
マルチモーダル学習が可能なエキスパートモデルの疎結合であるLanguage-Image MoE, LIMoEを提案する。
LIMoEは画像とテキストを同時に受け入れ、対照的な損失で訓練される。
moesは、専門家層が適切なモーダル分割を学習できるため、マルチモーダルバックボーンに自然に適合する。
しかし、特に、エントロピーに基づく正規化スキームを提案する訓練安定性とバランスの取れた専門家利用という新たな課題が生じる。
複数のスケールで、等価計算コストの高密度モデルよりも顕著な性能向上を示す。
LIMoE-L/16はCLIP-L/14と同等に訓練され、78.6%のゼロショットイメージネット精度(vs.76.2%)を獲得し、さらにH/14にスケールすると84.1%に達する。
LIMoEの量的・質的挙動を解析し,モダリティの異なる処理や,モダリティ特異的な専門家の有機的出現といった現象を実証する。
関連論文リスト
- A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - HMoE: Heterogeneous Mixture of Experts for Language Modeling [45.65121689677227]
伝統的に、Mixture of Experts (MoE)モデルは同一容量の均一なエキスパートを使用する。
本稿では,HMOE(Heterogeneous Mixture of Experts)を提案する。
HMoEは、活性化パラメータを少なくして低い損失を達成し、様々な事前学習評価ベンチマークにおいて、従来の均質なMoEモデルより優れる。
論文 参考訳(メタデータ) (2024-08-20T09:35:24Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - Mixture of Low-rank Experts for Transferable AI-Generated Image Detection [18.631006488565664]
生成モデルは、最小限の専門知識を持つ写真リアリスティック画像の飛躍的な飛躍を見せ、オンライン情報の真正性に対する懸念を喚起している。
本研究の目的は,多様なソースからの画像を識別できる,汎用的なAI生成画像検出器を開発することである。
事前学習された視覚言語モデルのゼロショット転送性に着想を得て、未知の領域を一般化するために、CLIP-ViTの非自明な視覚世界知識と記述的習熟度を活用することを目指す。
論文 参考訳(メタデータ) (2024-04-07T09:01:50Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。