論文の概要: Advancing Multi-Modal Sensing Through Expandable Modality Alignment
- arxiv url: http://arxiv.org/abs/2407.17777v1
- Date: Thu, 25 Jul 2024 05:10:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 15:08:06.960543
- Title: Advancing Multi-Modal Sensing Through Expandable Modality Alignment
- Title(参考訳): 拡張可能なモーダルアライメントによるマルチモーダルセンシングの改善
- Authors: Shenghong Dai, Shiqi Jiang, Yifan Yang, Ting Cao, Mo Li, Suman Banerjee, Lili Qiu,
- Abstract要約: ニューラルネットワークアーキテクチャ、データ準備と処理、トレーニング戦略を含むBabelフレームワークを紹介します。
Babelは、スケーラブルで事前訓練されたマルチモーダルセンシングニューラルネットワークとして機能し、現在6つのセンセーショナルモダリティを整列している。
バベルは、利用可能な複数のモダリティ(最大22%の精度向上)を効果的に融合するだけでなく、個々のモダリティのパフォーマンスも向上する。
- 参考スコア(独自算出の注目度): 14.0873117319398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sensing technology is widely used for comprehending the physical world, with numerous modalities explored in past decades. While there has been considerable work on multi-modality learning, they all require data of all modalities be paired. How to leverage multi-modality data with partially pairings remains an open problem. To tackle this challenge, we introduce the Babel framework, encompassing the neural network architecture, data preparation and processing, as well as the training strategies. Babel serves as a scalable pre-trained multi-modal sensing neural network, currently aligning six sensing modalities, namely Wi-Fi, mmWave, IMU, LiDAR, video, and depth. To overcome the scarcity of complete paired data, the key idea of Babel involves transforming the N-modality alignment into a series of two-modality alignments by devising the expandable network architecture. This concept is also realized via a series of novel techniques, including the pre-trained modality tower that capitalizes on available single-modal networks, and the adaptive training strategy balancing the contribution of the newly incorporated modality with the previously established modality alignment. Evaluation demonstrates Babel's outstanding performance on eight human activity recognition datasets, compared to various baselines e.g., the top multi-modal sensing framework, single-modal sensing networks, and multi-modal large language models. Babel not only effectively fuses multiple available modalities (up to 22% accuracy increase), but also enhance the performance of individual modality (12% averaged accuracy improvement). Case studies also highlight exciting application scenarios empowered by Babel, including cross-modality retrieval (i.e., sensing imaging), and bridging LLM for sensing comprehension.
- Abstract(参考訳): センシング技術は物理世界を理解するために広く使われており、過去数十年で多くのモダリティが探求された。
マルチモダリティ学習にはかなりの研究があるが、すべてのモダリティがペアリングされるデータが必要である。
部分的なペアリングによるマルチモーダリティデータの活用は、依然として未解決の問題である。
この課題に対処するために、ニューラルネットワークアーキテクチャ、データ準備と処理、トレーニング戦略を含むBabelフレームワークを紹介します。
Babelは現在、Wi-Fi、mmWave、IMU、LiDAR、ビデオ、深さの6つのセンシングモードを整列している。
完全なペアデータの不足を克服するために、Babelのキーとなるアイデアは、拡張可能なネットワークアーキテクチャを考案することによって、N-モダリティアライメントを一連の2-モダリティアライメントに変換することである。
この概念は、利用可能なシングルモーダルネットワークを活用する事前訓練されたモーダルタワーや、新たに導入されたモーダルアライメントと以前に確立されたモーダルアライメントの寄与のバランスをとる適応的トレーニング戦略など、一連の新しい手法によっても実現されている。
評価は、トップマルチモーダルセンシングフレームワーク、シングルモーダルセンシングネットワーク、マルチモーダル大言語モデルなど、さまざまなベースラインと比較して、Babelの8つのアクティビティ認識データセットにおける優れたパフォーマンスを示している。
Babelは、複数の利用可能なモダリティ(精度が最大22%向上する)を効果的に融合するだけでなく、個々のモダリティ(精度が平均12%向上する)の性能も向上させる。
ケーススタディでは、Babelによって強化されたエキサイティングなアプリケーションシナリオも強調されている。
関連論文リスト
- NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Semi-supervised Multimodal Representation Learning through a Global Workspace [2.8948274245812335]
グローバルワークスペース」は2つの入力モダリティの共有表現である。
このアーキテクチャは、サイクル一貫性による自己教師型トレーニングに適しています。
このようなアーキテクチャは、一致したデータを必要とすることがほとんどなく、2つのモダリティを調整し、翻訳するように訓練できることを示します。
論文 参考訳(メタデータ) (2023-06-27T12:41:36Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning
with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。
我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。
一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2023-03-27T07:07:33Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。