論文の概要: M3-JEPA: Multimodal Alignment via Multi-gate MoE based on the Joint-Predictive Embedding Architecture
- arxiv url: http://arxiv.org/abs/2409.05929v5
- Date: Wed, 11 Jun 2025 18:11:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 17:54:42.816563
- Title: M3-JEPA: Multimodal Alignment via Multi-gate MoE based on the Joint-Predictive Embedding Architecture
- Title(参考訳): M3-JEPA: 共同予測埋め込みアーキテクチャに基づくマルチゲートMOEによるマルチモーダルアライメント
- Authors: Hongyang Lei, Xiaolong Cheng, Qi Qin, Dan Wang, Kun Fan, Huazhen Huang, Qingqing Gu, Yetao Wu, Zhonglin Jiang, Yong Chen, Luo Ji,
- Abstract要約: 現在のマルチモーダル学習戦略は主にオリジナルのトークン空間で最適化されている。
我々はマルチモーダルなタスクにJEPA(Joint Embedding predictive Architecture)を導入し、入力埋め込みを予測器によって出力埋め込み空間に変換する。
我々は,M3-JEPAが様々なモダリティやタスクの最先端性能を達成でき,未知のデータセットやドメインに一般化でき,学習と推論の両方において計算効率がよいことを示す。
- 参考スコア(独自算出の注目度): 6.928469290518152
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current multimodal learning strategies primarily optimize in the original token space. Such a framework is easy to incorporate with the backbone of pretrained language model, but might result in modality collapse. To alleviate such issues, we leverage the joint embedding predictive architecture (JEPA) on the multimodal tasks, which converts the input embedding into the output embedding space by a predictor and then conducts the cross-modal alignment on the latent space. We implement this predictor by a Multi-Gate Mixture of Experts (MMoE) and name the framework as M3-JEPA, accordingly. The gating function disentangles the modality-specific and shared information and derives information-theoretic optimality. The framework is implemented with both contrastive and regularization loss, and solved by alternative gradient descent (AGD) between different multimodal tasks. By thoroughly designed experiments, we show that M3-JEPA can obtain state-of-the-art performance on different modalities and tasks, generalize to unseen datasets and domains, and is computationally efficient in both training and inference. Our observation suggests that M3-JEPA might become a new basis to self-supervised learning in the open world.
- Abstract(参考訳): 現在のマルチモーダル学習戦略は主にオリジナルのトークン空間で最適化されている。
このようなフレームワークは、事前訓練された言語モデルのバックボーンに簡単に組み込むことができるが、モダリティが崩壊する可能性がある。
このような問題を緩和するために、我々はマルチモーダルなタスクにJEPA(Joint Embedding predictive Architecture)を導入し、入力の埋め込みを予測器で出力埋め込み空間に変換し、潜在空間上でクロスモーダルなアライメントを行う。
この予測器をM3-JEPA(Multi-Gate Mixture of Experts)により実装し,そのフレームワークをM3-JEPAと命名する。
ゲーティング関数は、モダリティ固有の共有情報を切り離し、情報理論の最適性を導出する。
フレームワークは、コントラストと正規化の両方の損失で実装され、異なるマルチモーダルタスク間の代替勾配降下(AGD)によって解決される。
徹底的に設計した実験により,M3-JEPA は様々なモダリティやタスクの最先端性能を達成でき,未知のデータセットやドメインに一般化でき,学習と推論の両方において計算効率がよいことを示す。
我々の観察から,M3-JEPAはオープンワールドにおける自己教師型学習の新たな基盤となる可能性が示唆された。
関連論文リスト
- Harmony: A Unified Framework for Modality Incremental Learning [81.13765007314781]
本稿では,連続的に進化するモーダルシーケンスを横断するインクリメンタル学習が可能な統一モデルの実現可能性について検討する。
本研究では,適応的アライメントと知識保持を実現するために,Harmonyという新しいフレームワークを提案する。
提案手法は適応性のある特徴変調と累積的モーダルブリッジングを導入する。
論文 参考訳(メタデータ) (2025-04-17T06:35:01Z) - Continual Cross-Modal Generalization [48.56694158680082]
クロスモーダル一般化は、マルチモーダル対から共有表現空間を学ぶことを目的としている。
本稿では,新たなモダリティを仲介者モダリティを介して共有コードブックに漸進的にマッピングする連続学習手法を提案する。
画像-テキスト,音声-テキスト,ビデオ-テキスト,音声-テキストによる実験により,本手法は多種多様なモーダル一般化タスクにおいて高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-04-01T09:16:20Z) - Towards Modality Generalization: A Benchmark and Prospective Analysis [56.84045461854789]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - Learning Robust Anymodal Segmentor with Unimodal and Cross-modal Distillation [30.33381342502258]
主な課題はユニモーダルバイアス(unimodal bias)であり、マルチモーダルセグメンタが特定のモダリティに依存しているため、他のセグメンタが欠落するとパフォーマンスが低下する。
視覚的モダリティの組み合わせを扱える頑健なセグメンタを学習するための最初のフレームワークを開発する。
論文 参考訳(メタデータ) (2024-11-26T06:15:27Z) - QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou [23.818456863262494]
異なる下流モデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズするための定量的なマルチモーダルフレームワークを導入する。
ダウンストリームタスクの利用における2つの難題に着想を得て、異なるダウンストリームモデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズする定量的なマルチモーダルフレームワークを導入する。
論文 参考訳(メタデータ) (2024-11-18T17:08:35Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Detached and Interactive Multimodal Learning [17.843121072628477]
本稿では,モダリティにまたがる補完情報を学習するための新しいMMLフレームワークであるDI-MMLを紹介する。
各モダリティエンコーダを独立した学習目標で個別に訓練することで、競争に対処する。
音声・視覚・フロー画像・前面画像データを用いた実験は,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-28T15:38:58Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - What Makes for Robust Multi-Modal Models in the Face of Missing
Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。
UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。
UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文 参考訳(メタデータ) (2023-10-10T07:47:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。