Fugu-MT 論文翻訳(概要): Alt-MoE: Multimodal Alignment via Alternating Optimization of Multi-directional MoE with Unimodal Models

論文の概要: Alt-MoE: Multimodal Alignment via Alternating Optimization of Multi-directional MoE with Unimodal Models

arxiv url: http://arxiv.org/abs/2409.05929v2
Date: Thu, 19 Dec 2024 07:31:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:15.780924
Title: Alt-MoE: Multimodal Alignment via Alternating Optimization of Multi-directional MoE with Unimodal Models
Title（参考訳）: Alt-MoE:一様モデルを用いた多方向MoEの交互最適化によるマルチモーダルアライメント
Authors: Hongyang Lei, Xiaolong Cheng, Dan Wang, Kun Fan, Qi Qin, Huazhen Huang, Yetao Wu, Qingqing Gu, Zhonglin Jiang, Yong Chen, Luo Ji,
Abstract要約: そこで我々は、MoE(Mixture of Experts)をモダリティにまたがる統一多方向コネクタとして利用する、新しいトレーニングフレームワークAlt-MoEを紹介する。我々の手法は、いくつかの優れたユニモーダルモデルで検証されている。
参考スコア（独自算出の注目度）: 6.928469290518152
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent Large Multi-Modal Models (LMMs) have made significant advancements in multi-modal alignment by employing lightweight connection modules to facilitate the representation and fusion of knowledge from existing pre-trained uni-modal models. However, these methods still rely on modality-specific and direction-specific connectors, leading to compartmentalized knowledge representations and reduced computational efficiency, which limits the model's ability to form unified multi-modal representations. To address these issues, we introduce a novel training framework, Alt-MoE, which employs the Mixture of Experts (MoE) as a unified multi-directional connector across modalities, and employs a multi-step sequential alternating unidirectional alignment strategy, which converges to bidirectional alignment over iterations. The extensive empirical studies revealed the following key points: 1) Alt-MoE achieves competitive results by integrating diverse knowledge representations from uni-modal models. This approach seamlessly fuses the specialized expertise of existing high-performance uni-modal models, effectively synthesizing their domain-specific knowledge into a cohesive multi-modal representation. 2) Alt-MoE efficiently scales to new tasks and modalities without altering its model architecture or training strategy. Furthermore, Alt-MoE operates in latent space, supporting vector pre-storage and real-time retrieval via lightweight multi-directional MoE, thereby facilitating massive data processing. Our methodology has been validated on several well-performing uni-modal models (LLAMA3, Qwen2, and DINOv2), achieving competitive results on a wide range of downstream tasks and datasets.
Abstract（参考訳）: 近年のLarge Multi-Modal Models (LMM) は、既存の訓練済みユニモーダルモデルからの知識の表現と融合を容易にするために、軽量な接続モジュールを利用することにより、マルチモーダルアライメントにおいて大きな進歩を遂げている。しかしながら、これらの手法はモダリティ固有のコネクタと方向固有のコネクタに依存しており、分割化された知識表現と計算効率の低下をもたらし、モデルが統一されたマルチモーダル表現を形成する能力を制限する。これらの問題に対処するため、我々はAlt-MoEという新しいトレーニングフレームワークを導入し、Mixture of Experts (MoE) をモダリティにまたがる統一された多方向コネクターとして採用し、複数ステップの逐次的な一方向アライメント戦略を採用し、反復よりも双方向アライメントに収束する。広範な実証研究により、以下の要点が明らかになった。 1)Alt-MoEは,ユニモーダルモデルから多様な知識表現を統合することで,競争的な結果を得る。このアプローチは、既存の高性能ユニモーダルモデルの専門知識をシームレスに融合させ、ドメイン固有の知識を結合的なマルチモーダル表現に効果的に合成する。 2)Alt-MoEは、モデルアーキテクチャやトレーニング戦略を変更することなく、新しいタスクやモダリティに効率的にスケールする。さらに、Alt-MoEは遅延空間で動作し、ベクトルプレストレージと軽量な多方向MoEによるリアルタイム検索をサポートし、大量のデータ処理を容易にする。提案手法は,複数の一様モデル (LLAMA3, Qwen2, DINOv2) で検証され, 広範囲の下流タスクとデータセットで競合する結果を得た。

関連論文リスト

Parallelism Meets Adaptiveness: Scalable Documents Understanding in Multi-Agent LLM Systems [0.8437187555622164]
大規模言語モデル(LLM)エージェントは、協調的なタスク補完の約束が増していることを示している。既存のマルチエージェントフレームワークは、静的で固定されたロールと限定的なエージェント間通信に依存していることが多い。本稿では,3つのコア機構による適応性を実現するための協調フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-22T22:42:51Z)
Escaping Plato's Cave: JAM for Aligning Independently Trained Vision and Language Models [29.59537209390697]
単一モードモデルの潜在表現に対して、モダリティ固有のオートエンコーダを訓練するフレームワークを導入する。類推により、このフレームワークはプラトンの洞窟から逃れる方法として機能し、結合しない入力から共有構造の出現を可能にする。
論文参考訳（メタデータ） (2025-07-01T21:43:50Z)
MMaDA: Multimodal Large Diffusion Language Models [47.043301822171195]
マルチモーダル拡散基礎モデルの新たなクラスであるMMaDAを紹介する。テキスト推論、マルチモーダル理解、テキスト・ツー・イメージ生成など、さまざまな領域で優れたパフォーマンスを実現するように設計されている。
論文参考訳（メタデータ） (2025-05-21T17:59:05Z)
Harmony: A Unified Framework for Modality Incremental Learning [81.13765007314781]
本稿では,連続的に進化するモーダルシーケンスを横断するインクリメンタル学習が可能な統一モデルの実現可能性について検討する。本研究では,適応的アライメントと知識保持を実現するために,Harmonyという新しいフレームワークを提案する。提案手法は適応性のある特徴変調と累積的モーダルブリッジングを導入する。
論文参考訳（メタデータ） (2025-04-17T06:35:01Z)
Continual Cross-Modal Generalization [48.56694158680082]
クロスモーダル一般化は、マルチモーダル対から共有表現空間を学ぶことを目的としている。本稿では,新たなモダリティを仲介者モダリティを介して共有コードブックに漸進的にマッピングする連続学習手法を提案する。画像-テキスト,音声-テキスト,ビデオ-テキスト,音声-テキストによる実験により,本手法は多種多様なモーダル一般化タスクにおいて高い性能を発揮することが示された。
論文参考訳（メタデータ） (2025-04-01T09:16:20Z)
Towards Modality Generalization: A Benchmark and Prospective Analysis [56.84045461854789]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文参考訳（メタデータ） (2024-12-24T08:38:35Z)
Learning Robust Anymodal Segmentor with Unimodal and Cross-modal Distillation [30.33381342502258]
主な課題はユニモーダルバイアス(unimodal bias)であり、マルチモーダルセグメンタが特定のモダリティに依存しているため、他のセグメンタが欠落するとパフォーマンスが低下する。視覚的モダリティの組み合わせを扱える頑健なセグメンタを学習するための最初のフレームワークを開発する。
論文参考訳（メタデータ） (2024-11-26T06:15:27Z)
QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou [23.818456863262494]
異なる下流モデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズするための定量的なマルチモーダルフレームワークを導入する。ダウンストリームタスクの利用における2つの難題に着想を得て、異なるダウンストリームモデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズする定量的なマルチモーダルフレームワークを導入する。
論文参考訳（メタデータ） (2024-11-18T17:08:35Z)
LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。 PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。 PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文参考訳（メタデータ） (2024-10-26T13:19:57Z)
Detached and Interactive Multimodal Learning [17.843121072628477]
本稿では,モダリティにまたがる補完情報を学習するための新しいMMLフレームワークであるDI-MMLを紹介する。各モダリティエンコーダを独立した学習目標で個別に訓練することで、競争に対処する。音声・視覚・フロー画像・前面画像データを用いた実験は,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-07-28T15:38:58Z)
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文参考訳（メタデータ） (2024-05-18T12:16:01Z)
Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文参考訳（メタデータ） (2024-02-20T06:38:10Z)
Large Language Models aren't all that you need [0.0]
本稿では,SemEval 2023 Task 2: MultiCoNER IIを解くために構築されたアーキテクチャとシステムについて述べる。 a)従来のランダムフィールドモデルと(b)カスタマイズされた頭で微調整されたLarge Language Model(LLM)の2つのアプローチを評価し、その2つのアプローチを比較した。
論文参考訳（メタデータ） (2024-01-01T08:32:50Z)
Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。 Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文参考訳（メタデータ） (2023-12-20T18:59:58Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
What Makes for Robust Multi-Modal Models in the Face of Missing Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。 UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。 UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文参考訳（メタデータ） (2023-10-10T07:47:57Z)
Improving Discriminative Multi-Modal Learning with Large-Scale Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。 MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文参考訳（メタデータ） (2023-10-08T15:01:54Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based Self-Supervised Pre-Training [58.07391711548269]
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
論文参考訳（メタデータ） (2023-03-23T17:59:02Z)
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文参考訳（メタデータ） (2023-03-10T14:38:49Z)
Universal Information Extraction as Unified Semantic Matching [54.19974454019611]
情報抽出を,異なるタスクやスキーマで共有される構造化と概念化という,2つの能力に分割する。このパラダイムに基づいて、統一意味マッチングフレームワークを用いて様々なIEタスクを普遍的にモデル化することを提案する。このように、USMはスキーマと入力テキストを共同でエンコードし、サブ構造を一様に並列に抽出し、必要に応じてターゲット構造を制御できる。
論文参考訳（メタデータ） (2023-01-09T11:51:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。