Fugu-MT 論文翻訳(概要): Flex-MoE: Modeling Arbitrary Modality Combination via the Flexible Mixture-of-Experts

論文の概要: Flex-MoE: Modeling Arbitrary Modality Combination via the Flexible Mixture-of-Experts

arxiv url: http://arxiv.org/abs/2410.08245v1
Date: Thu, 10 Oct 2024 09:37:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 04:26:09.234785
Title: Flex-MoE: Modeling Arbitrary Modality Combination via the Flexible Mixture-of-Experts
Title（参考訳）: Flex-MoE:Flexible Mixture-of-Expertsによる任意モード結合のモデリング
Authors: Sukwon Yun, Inyoung Choi, Jie Peng, Yangfan Wu, Jingxuan Bao, Qiyiwen Zhang, Jiayi Xin, Qi Long, Tianlong Chen,
Abstract要約: 我々は任意のモダリティの組み合わせを柔軟に組み込むように設計された新しいフレームワークFlex-MoEを提案する。アルツハイマー病領域の4つのモードを含むADNIデータセットとMIMIC-IVデータセットを用いてFlex-MoEを評価する。
参考スコア（独自算出の注目度）: 31.395361664653677
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal learning has gained increasing importance across various fields, offering the ability to integrate data from diverse sources such as images, text, and personalized records, which are frequently observed in medical domains. However, in scenarios where some modalities are missing, many existing frameworks struggle to accommodate arbitrary modality combinations, often relying heavily on a single modality or complete data. This oversight of potential modality combinations limits their applicability in real-world situations. To address this challenge, we propose Flex-MoE (Flexible Mixture-of-Experts), a new framework designed to flexibly incorporate arbitrary modality combinations while maintaining robustness to missing data. The core idea of Flex-MoE is to first address missing modalities using a new missing modality bank that integrates observed modality combinations with the corresponding missing ones. This is followed by a uniquely designed Sparse MoE framework. Specifically, Flex-MoE first trains experts using samples with all modalities to inject generalized knowledge through the generalized router ($\mathcal{G}$-Router). The $\mathcal{S}$-Router then specializes in handling fewer modality combinations by assigning the top-1 gate to the expert corresponding to the observed modality combination. We evaluate Flex-MoE on the ADNI dataset, which encompasses four modalities in the Alzheimer's Disease domain, as well as on the MIMIC-IV dataset. The results demonstrate the effectiveness of Flex-MoE highlighting its ability to model arbitrary modality combinations in diverse missing modality scenarios. Code is available at https://github.com/UNITES-Lab/flex-moe.
Abstract（参考訳）: マルチモーダル学習は、画像、テキスト、パーソナライズドレコードなどの様々なソースからのデータを統合する機能を提供し、医療領域で頻繁に見られるようにして、様々な分野において重要性を高めている。しかしながら、いくつかのモダリティが欠落しているシナリオでは、多くの既存のフレームワークは任意のモダリティの組み合わせを許容するのに苦労し、しばしば単一のモダリティや完全なデータに大きく依存する。この潜在的なモダリティの組み合わせの監視は、現実の状況における適用性を制限している。この課題に対処するため,Flex-MoE (Flexible Mixture-of-Experts) を提案する。 Flex-MoEの中核となる考え方は、新しい欠落したモダリティバンクを使用して、最初に欠落したモダリティに対処することである。次に、ユニークな設計のSparse MoEフレームワークが続く。具体的には、Flex-MoEは、すべてのモダリティを持つサンプルを使用して、一般化ルータ(\mathcal{G}$-Router)を介して一般化された知識を注入する専門家を訓練する。次に$\mathcal{S}$-Routerは、観測されたモダリティの組み合わせに対応する専門家にトップ-1ゲートを割り当てることで、より少ないモダリティの組み合わせを扱うことを専門とする。アルツハイマー病領域の4つのモードを含むADNIデータセットとMIMIC-IVデータセットを用いてFlex-MoEを評価する。結果としてFlex-MoEの有効性が示され、様々なモダリティシナリオにおいて任意のモダリティの組み合わせをモデル化する能力を強調した。コードはhttps://github.com/UNITES-Lab/flex-moe.comで入手できる。

関連論文リスト

I2MoE: Interpretable Multimodal Interaction-aware Mixture-of-Experts [33.97906750476949]
I2MoE (Interpretable Multimodal Interaction-aware Mixture of Experts) を提案する。 I2MoEは多様なマルチモーダル相互作用を明示的にモデル化し、局所的およびグローバルなレベルでの解釈を提供する。 I2MoEは様々な融合技術と組み合わせられるほど柔軟で、タスク性能を一貫して改善し、様々な現実世界のシナリオに解釈を提供する。
論文参考訳（メタデータ） (2025-05-25T15:34:29Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。 MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文参考訳（メタデータ） (2024-12-27T02:39:50Z)
FedMoE: Personalized Federated Learning via Heterogeneous Mixture of Experts [4.412721048192925]
我々は、データ不均一性に対処するための効率的パーソナライズされたFederated LearningフレームワークであるFedMoEを紹介する。 FedMoEは2つの微調整段階から構成されており、第1段階では、観測されたアクティベーションパターンに基づいて探索を行うことで問題を単純化する。第2段階では、これらのサブモデルはさらなるトレーニングのためにクライアントに配布され、サーバ集約のために返される。
論文参考訳（メタデータ） (2024-08-21T03:16:12Z)
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文参考訳（メタデータ） (2024-05-18T12:16:01Z)
All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文参考訳（メタデータ） (2024-05-08T01:04:36Z)
NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。 NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-03-28T03:04:00Z)
BlendX: Complex Multi-Intent Detection with Blended Patterns [4.852816974803059]
BlendXは、前者よりも多様なパターンを特徴とする洗練されたデータセットのスイートです。データセット構築には,ルールベースと生成ツール – OpenAIのChatGPT – の両方を使用します。 BlendXの実験によると、最先端のMIDモデルは、新しいデータセットがもたらす課題に苦戦している。
論文参考訳（メタデータ） (2024-03-27T06:13:04Z)
FuseMoE: Mixture-of-Experts Transformers for Fleximodal Fusion [29.130355774088205]
FuseMoEは、革新的なゲーティング機能を備えた、エキスパートの混成フレームワークである。多様なモダリティを統合するために設計されたFuseMoEは、欠落したモダリティと不規則にサンプリングされたデータトラジェクトリのシナリオを管理するのに効果的である。
論文参考訳（メタデータ） (2024-02-05T17:37:46Z)
Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection [14.261582708240407]
FL(Multimodal Federated Learning)は、FL設定におけるモデルトレーニングを強化することを目的としている。マルチモーダルFLの鍵となる課題は、特に異種ネットワーク設定において、未適応のままである。マルチモーダル設定における上記の課題に対処できる新しいFL手法であるmmFedMCを提案する。
論文参考訳（メタデータ） (2024-01-30T02:16:19Z)
FedMFS: Federated Multimodal Fusion Learning with Selective Modality Communication [11.254610576923204]
選択的モーダル通信を用いたFedMFS(Federated Multimodal Fusion Learning)を提案する。鍵となる考え方は、各デバイスに対するモダリティ選択基準の導入であり、(i)Shapley値解析によって測定されたモダリティの影響を重み付けし、(ii)モダリティモデルサイズを通信オーバーヘッドの指標とする。実世界のActionSenseデータセットの実験では、FedMFSが複数のベースラインに匹敵する精度を達成し、通信オーバーヘッドを4倍に削減できることを示した。
論文参考訳（メタデータ） (2023-10-10T22:23:27Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。 FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2023-05-05T04:28:48Z)
Flexible-Modal Face Anti-Spoofing: A Benchmark [66.18359076810549]
フェース・アンチ・スプーフィング(FAS)は、プレゼンテーション攻撃から顔認識システムを保護する上で重要な役割を担っている。第一のフレキシブル・モーダルなFASベンチマークを原則として確立しました。また、フレキシブルモーダルFASのための一般的な深層モデルと特徴融合戦略についても検討する。
論文参考訳（メタデータ） (2022-02-16T16:55:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。