論文の概要: MMBind: Unleashing the Potential of Distributed and Heterogeneous Data for Multimodal Learning in IoT
- arxiv url: http://arxiv.org/abs/2411.12126v1
- Date: Mon, 18 Nov 2024 23:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:36:11.566419
- Title: MMBind: Unleashing the Potential of Distributed and Heterogeneous Data for Multimodal Learning in IoT
- Title(参考訳): MMBind: IoTにおけるマルチモーダル学習のための分散データと異種データの可能性
- Authors: Xiaomin Ouyang, Jason Wu, Tomoyoshi Kimura, Yihan Lin, Gunjan Verma, Tarek Abdelzaher, Mani Srivastava,
- Abstract要約: 分散および異種IoTデータのマルチモーダル学習のための新しいフレームワークであるMBindを提案する。
同様の事象を観測する異なるモードのデータを、異なる時間や場所で捉えたとしても、マルチモーダルトレーニングに効果的に利用できることを示す。
- 参考スコア(独自算出の注目度): 11.884646027921173
- License:
- Abstract: Multimodal sensing systems are increasingly prevalent in various real-world applications. Most existing multimodal learning approaches heavily rely on training with a large amount of complete multimodal data. However, such a setting is impractical in real-world IoT sensing applications where data is typically collected by distributed nodes with heterogeneous data modalities, and is also rarely labeled. In this paper, we propose MMBind, a new framework for multimodal learning on distributed and heterogeneous IoT data. The key idea of MMBind is to construct a pseudo-paired multimodal dataset for model training by binding data from disparate sources and incomplete modalities through a sufficiently descriptive shared modality. We demonstrate that data of different modalities observing similar events, even captured at different times and locations, can be effectively used for multimodal training. Moreover, we propose an adaptive multimodal learning architecture capable of training models with heterogeneous modality combinations, coupled with a weighted contrastive learning approach to handle domain shifts among disparate data. Evaluations on ten real-world multimodal datasets highlight that MMBind outperforms state-of-the-art baselines under varying data incompleteness and domain shift, and holds promise for advancing multimodal foundation model training in IoT applications.
- Abstract(参考訳): マルチモーダルセンシングシステムは、様々な現実世界のアプリケーションでますます普及している。
既存のマルチモーダル学習アプローチの多くは、大量のマルチモーダルデータによるトレーニングに大きく依存している。
しかし、そのような設定は、異種データモダリティを持つ分散ノードによってデータが収集される実際のIoTセンシングアプリケーションでは実用的ではなく、ラベル付けされることも稀である。
本稿では,分散および異種IoTデータのマルチモーダル学習のための新しいフレームワークであるMBindを提案する。
MMBindの鍵となる考え方は、異なるソースと不完全なモダリティからのデータを十分に記述された共有モダリティによって結合することで、モデルトレーニングのための擬似ペアマルチモーダルデータセットを構築することである。
同様の事象を観測する異なるモードのデータを、異なる時間や場所で捉えたとしても、マルチモーダルトレーニングに効果的に利用できることを示す。
さらに、異質なモダリティの組み合わせでモデルを訓練できる適応型マルチモーダル学習アーキテクチャと、異なるデータ間のドメインシフトを処理するための重み付きコントラスト学習アプローチを提案する。
10の現実世界のマルチモーダルデータセットの評価では、MMBindはさまざまなデータ不完全性とドメインシフトの下で最先端のベースラインよりも優れており、IoTアプリケーションにおけるマルチモーダル基盤モデルのトレーニングの進歩を約束している。
関連論文リスト
- Supervised Multi-Modal Fission Learning [19.396207029419813]
マルチモーダルデータセットからの学習は相補的な情報を活用することができ、予測タスクのパフォーマンスを向上させることができる。
本稿では,グローバルな関節,部分的な関節,個々のコンポーネントを同時に識別するマルチモーダル・フィッション・ラーニング・モデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T17:58:03Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning
with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。
我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。
一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2023-03-27T07:07:33Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Learning Sequential Latent Variable Models from Multimodal Time Series
Data [6.107812768939553]
マルチモーダルデータの確率的潜在状態表現を協調的に学習するための自己教師付き生成モデリングフレームワークを提案する。
提案手法が予測品質と表現品質を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-04-21T21:59:24Z) - Multimodal Knowledge Expansion [14.332957885505547]
ラベルを必要とせずにマルチモーダルデータを利用する知識蒸留に基づくフレームワークを提案する。
我々は、マルチモーダルな学生モデルが一貫して疑似ラベルを否定し、教師よりも優れた一般化を示す。
論文 参考訳(メタデータ) (2021-03-26T12:32:07Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。