論文の概要: M3-Jepa: Multimodal Alignment via Multi-directional MoE based on the JEPA framework
- arxiv url: http://arxiv.org/abs/2409.05929v4
- Date: Mon, 05 May 2025 16:48:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 14:44:43.72364
- Title: M3-Jepa: Multimodal Alignment via Multi-directional MoE based on the JEPA framework
- Title(参考訳): M3-Jepa: JEPAフレームワークに基づく多方向MoEによるマルチモーダルアライメント
- Authors: Hongyang Lei, Xiaolong Cheng, Dan Wang, Kun Fan, Qi Qin, Huazhen Huang, Yetao Wu, Qingqing Gu, Zhonglin Jiang, Yong Chen, Luo Ji,
- Abstract要約: M3-Jepaはスケーラブルなマルチモーダルアライメントフレームワークであり、専門家の多方向混合によって実装された予測器を備えている。
我々は,M3-Jepaが様々なモダリティやタスクの最先端性能を達成でき,未知のデータセットやドメインに一般化でき,学習や推論において計算効率がよいことを示す。
- 参考スコア(独自算出の注目度): 6.928469290518152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current multimodal alignment strategies primarily use single or unified modality encoders, while optimizing the alignment on the original token space. Such a framework is easy to implement and incorporate with the pretrained knowledge, but might result in information bias. To deal with such issues, the joint encoding predictive architecture (JEPA) learns the alignment loss on the latent space, with a predictor to convert the input encoding to the output latent space. However, the application of JEPA in multimodal scenarios is limited so far. In this paper, we introduce M3-Jepa, a scalable multimodal alignment framework, with the predictor implemented by a multi-directional mixture of experts (MoE). We demonstrate the framework can maximize the mutual information with information theory derivations, by alternating the optimization between different uni-directional tasks. By thoroughly designed experiments, we show that M3-Jepa can obtain state-of-the-art performance on different modalities and tasks, generalize to unseen datasets and domains, and is computationally efficient in training and inference. Our study indicates that M3-Jepa might provide a new paradigm to self-supervised learning and open-world modeling.
- Abstract(参考訳): 現在のマルチモーダルアライメント戦略は主に単一または統一なモダリティエンコーダを使用し、元のトークン空間上のアライメントを最適化する。
このようなフレームワークは、事前訓練された知識を実装および組み込むのが容易であるが、情報バイアスをもたらす可能性がある。
このような問題に対処するため、ジョイントエンコーディング予測アーキテクチャ(JEPA)は、入力エンコーディングを出力潜在空間に変換する予測器を用いて、潜在空間上のアライメント損失を学習する。
しかし、マルチモーダルシナリオにおけるJEPAの適用は制限されている。
本稿では,スケーラブルなマルチモーダルアライメントフレームワークであるM3-Jepaを紹介する。
本研究では,各一方向タスク間の最適化を交互に行い,情報理論の導出による相互情報の最大化を実証する。
徹底的に設計した実験により,M3-Jepaは様々なモダリティやタスクの最先端性能を達成でき,未知のデータセットやドメインに一般化でき,学習や推論において計算効率がよいことを示す。
本研究は,M3-Jepaが自己教師型学習とオープンワールドモデリングに新たなパラダイムを提供する可能性を示唆している。
関連論文リスト
- Harmony: A Unified Framework for Modality Incremental Learning [81.13765007314781]
本稿では,連続的に進化するモーダルシーケンスを横断するインクリメンタル学習が可能な統一モデルの実現可能性について検討する。
本研究では,適応的アライメントと知識保持を実現するために,Harmonyという新しいフレームワークを提案する。
提案手法は適応性のある特徴変調と累積的モーダルブリッジングを導入する。
論文 参考訳(メタデータ) (2025-04-17T06:35:01Z) - Continual Cross-Modal Generalization [48.56694158680082]
クロスモーダル一般化は、マルチモーダル対から共有表現空間を学ぶことを目的としている。
本稿では,新たなモダリティを仲介者モダリティを介して共有コードブックに漸進的にマッピングする連続学習手法を提案する。
画像-テキスト,音声-テキスト,ビデオ-テキスト,音声-テキストによる実験により,本手法は多種多様なモーダル一般化タスクにおいて高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-04-01T09:16:20Z) - Towards Modality Generalization: A Benchmark and Prospective Analysis [56.84045461854789]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - Learning Robust Anymodal Segmentor with Unimodal and Cross-modal Distillation [30.33381342502258]
主な課題はユニモーダルバイアス(unimodal bias)であり、マルチモーダルセグメンタが特定のモダリティに依存しているため、他のセグメンタが欠落するとパフォーマンスが低下する。
視覚的モダリティの組み合わせを扱える頑健なセグメンタを学習するための最初のフレームワークを開発する。
論文 参考訳(メタデータ) (2024-11-26T06:15:27Z) - QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou [23.818456863262494]
異なる下流モデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズするための定量的なマルチモーダルフレームワークを導入する。
ダウンストリームタスクの利用における2つの難題に着想を得て、異なるダウンストリームモデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズする定量的なマルチモーダルフレームワークを導入する。
論文 参考訳(メタデータ) (2024-11-18T17:08:35Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Detached and Interactive Multimodal Learning [17.843121072628477]
本稿では,モダリティにまたがる補完情報を学習するための新しいMMLフレームワークであるDI-MMLを紹介する。
各モダリティエンコーダを独立した学習目標で個別に訓練することで、競争に対処する。
音声・視覚・フロー画像・前面画像データを用いた実験は,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-28T15:38:58Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - What Makes for Robust Multi-Modal Models in the Face of Missing
Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。
UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。
UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文 参考訳(メタデータ) (2023-10-10T07:47:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。