論文の概要: Babel: A Scalable Pre-trained Model for Multi-Modal Sensing via Expandable Modality Alignment
- arxiv url: http://arxiv.org/abs/2407.17777v2
- Date: Fri, 21 Mar 2025 10:51:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:54:45.523804
- Title: Babel: A Scalable Pre-trained Model for Multi-Modal Sensing via Expandable Modality Alignment
- Title(参考訳): Babel: 拡張可能なモダリティアライメントによるマルチモーダルセンシングのためのスケーラブルな事前トレーニングモデル
- Authors: Shenghong Dai, Shiqi Jiang, Yifan Yang, Ting Cao, Mo Li, Suman Banerjee, Lili Qiu,
- Abstract要約: Babelはマルチモーダルセンシング用に特別に設計された拡張可能なモーダルアライメントモデルである。
バベルは個々のモダリティセンシングの性能(平均精度12%)を向上するだけでなく、利用可能な複数のモダリティ(最大22%の精度向上)を効果的に融合させる。
ケーススタディでは、クロスモダリティ検索(つまり、センシングイメージング)や、理解を感知するためのブリッジングLDMなど、Babelによって強化された新たなアプリケーションシナリオも強調されている。
- 参考スコア(独自算出の注目度): 14.0873117319398
- License:
- Abstract: This paper presents Babel, the expandable modality alignment model, specially designed for multi-modal sensing. While there has been considerable work on multi-modality alignment, they all struggle to effectively incorporate multiple sensing modalities due to the data scarcity constraints. How to utilize multi-modal data with partial pairings in sensing remains an unresolved challenge. Babel tackles this challenge by introducing the concept of expandable modality alignment. The key idea involves transforming the N-modality alignment into a series of binary-modality alignments. Novel techniques are also proposed to further mitigate data scarcity issue and balance the contribution of the newly incorporated modality with the previously established modality alignment during the expandable alignment process. We provide the comprehensive implementation. In the pre-training phase, Babel currently aligns 6 sensing modalities, namely Wi-Fi, mmWave, IMU, LiDAR, video, and depth. For the deployment phase, as a foundation model, any single or combination of aligned modalities could be selected from Babel and applied to downstream tasks. Evaluation demonstrates Babel's outstanding performance on eight human activity recognition datasets, compared to a broad range of baselines e.g., the SOTA single-modal sensing networks, multi-modal sensing framework, and multi-modal large language models. Babel not only improves the performance of individual modality sensing (12% averaged accuracy improvement), but also effectively fuses multiple available modalities (up to 22% accuracy increase). Case studies also highlight emerging application scenarios empowered by Babel, including cross-modality retrieval (i.e., sensing imaging), and bridging LLM for sensing comprehension.
- Abstract(参考訳): 本稿では,マルチモーダルセンシングに特化して設計された拡張可能なモーダルアライメントモデルであるBabelについて述べる。
マルチモーダリティアライメントに関する多くの研究があるが、データ不足の制約により、複数のセンシングモダリティを効果的に組み込むのに苦労している。
センシングにおける部分的なペアリングによるマルチモーダルデータの活用は、未解決の課題である。
バベルは拡張可能なモジュラリティアライメントの概念を導入することでこの問題に取り組む。
鍵となる考え方は、N-モジュラリティアライメントを一連のバイナリーモダリティアライメントに変換することである。
また、データ不足の問題を緩和し、拡張可能なアライメントプロセスにおいて、予め確立されたモダリティアライメントと新たに組み込まれたモダリティアライメントのコントリビューションのバランスをとるために、新しい手法が提案されている。
包括的な実装を提供します。
事前トレーニングの段階では、現在BabelはWi-Fi、mmWave、IMU、LiDAR、ビデオ、奥行きの6つのモードを調整している。
デプロイメントフェーズでは、ファンデーションモデルとして、アライメントされたモダリティの任意の1つまたは組み合わせが、Babelから選択され、下流タスクに適用される。
評価は、Babelの8つの人間の活動認識データセットにおける卓越した性能を、幅広いベースラインeg、SOTAシングルモーダルセンシングネットワーク、マルチモーダルセンシングフレームワーク、マルチモーダル大言語モデルと比較したものである。
バベルは、個々のモダリティセンシング(平均精度12%)の性能を向上するだけでなく、利用可能な複数のモダリティ(最大22%の精度向上)を効果的に融合させる。
ケーススタディでは、クロスモダリティ検索(つまり、センシングイメージング)や、理解を感知するためのブリッジングLDMなど、Babelによって強化された新たなアプリケーションシナリオも強調されている。
関連論文リスト
- LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - AllSpark: A Multimodal Spatio-Temporal General Intelligence Model with Ten Modalities via Language as a Reference Framework [21.10693332367192]
マルチモーダル時間汎用人工知能モデルであるAllSparkを提案する。
私たちのモデルは10の異なるモダリティを統一されたフレームワークに統合します。
実験により、AllSparkは言語を組み込むことで、数ショットの分類タスクで優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-31T17:21:02Z) - Semi-supervised Multimodal Representation Learning through a Global Workspace [2.8948274245812335]
グローバルワークスペース」は2つの入力モダリティの共有表現である。
このアーキテクチャは、サイクル一貫性による自己教師型トレーニングに適しています。
このようなアーキテクチャは、一致したデータを必要とすることがほとんどなく、2つのモダリティを調整し、翻訳するように訓練できることを示します。
論文 参考訳(メタデータ) (2023-06-27T12:41:36Z) - Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning
with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。
我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。
一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2023-03-27T07:07:33Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。