論文の概要: Coupled Mamba: Enhanced Multi-modal Fusion with Coupled State Space Model
- arxiv url: http://arxiv.org/abs/2405.18014v1
- Date: Tue, 28 May 2024 09:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 19:18:23.822216
- Title: Coupled Mamba: Enhanced Multi-modal Fusion with Coupled State Space Model
- Title(参考訳): 結合型マンバ:結合状態空間モデルによる多モード核融合
- Authors: Wenbing Li, Hang Zhou, Zikai Song, Wei Yang,
- Abstract要約: 本稿では,複数モードの状態チェーンを結合し,モード内状態プロセスの独立性を維持した結合型SSMモデルを提案する。
CMU-EI,CH-SIMS,CH-SIMSV2のマルチドメイン入力による実験により,本モデルの有効性が検証された。
その結果, 結合マンバモデルではマルチモーダル核融合が可能であることがわかった。
- 参考スコア(独自算出の注目度): 14.223044478988955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The essence of multi-modal fusion lies in exploiting the complementary information inherent in diverse modalities. However, prevalent fusion methods rely on traditional neural architectures and are inadequately equipped to capture the dynamics of interactions across modalities, particularly in presence of complex intra- and inter-modality correlations. Recent advancements in State Space Models (SSMs), notably exemplified by the Mamba model, have emerged as promising contenders. Particularly, its state evolving process implies stronger modality fusion paradigm, making multi-modal fusion on SSMs an appealing direction. However, fusing multiple modalities is challenging for SSMs due to its hardware-aware parallelism designs. To this end, this paper proposes the Coupled SSM model, for coupling state chains of multiple modalities while maintaining independence of intra-modality state processes. Specifically, in our coupled scheme, we devise an inter-modal hidden states transition scheme, in which the current state is dependent on the states of its own chain and that of the neighbouring chains at the previous time-step. To fully comply with the hardware-aware parallelism, we devise an expedite coupled state transition scheme and derive its corresponding global convolution kernel for parallelism. Extensive experiments on CMU-MOSEI, CH-SIMS, CH-SIMSV2 through multi-domain input verify the effectiveness of our model compared to current state-of-the-art methods, improved F1-Score by 0.4\%, 0.9\%, and 2.3\% on the three datasets respectively, 49\% faster inference and 83.7\% GPU memory save. The results demonstrate that Coupled Mamba model is capable of enhanced multi-modal fusion.
- Abstract(参考訳): マルチモーダル融合の本質は、様々なモダリティに固有の相補的な情報を活用することである。
しかし、一般的な融合法は従来のニューラルアーキテクチャに依存しており、特に複雑なモダリティ内およびモダリティ間相関の存在下で、モダリティ間の相互作用のダイナミクスを捉えるには不十分である。
近年のステート・スペース・モデル(SSM)の進歩は、特にマンバ・モデルによって実証されたものであり、有望な候補として現れている。
特に、その状態の進化過程は、より強力なモダリティ融合パラダイムを示し、SSM上のマルチモーダル融合を魅力的な方向とする。
しかし、ハードウェアを意識した並列設計のため、複数のモダリティを融合することはSSMにとって困難である。
そこで本研究では,複数モードの状態連鎖を結合し,モダリティ内状態プロセスの独立性を維持しつつ結合する結合型SSMモデルを提案する。
具体的には、本手法では、現在の状態が前段階の鎖の状態と隣鎖の状態に依存するモード間隠れ状態遷移スキームを考案する。
ハードウェアを意識した並列性に完全に準拠するため,並列性を実現するために,高速結合状態遷移方式を考案し,対応するグローバル畳み込みカーネルを導出する。
マルチドメイン入力によるCMU-MOSEI,CH-SIMS,CH-SIMSV2の大規模な実験により,現在の最先端手法と比較して,F1-Scoreをそれぞれ0.4\%,0.9\%,2.3\%,推論が49\%,GPUメモリが83.7\%向上した。
その結果,結合マンバモデルではマルチモーダル核融合が可能であることが示された。
関連論文リスト
- Progressively Modality Freezing for Multi-Modal Entity Alignment [27.77877721548588]
本稿では,アライメント関連特徴に焦点をあてた,PMFと呼ばれる進行モード凍結の新たな戦略を提案する。
特に,本手法では,モーダル整合性を高めるために,クロスモーダルなアソシエーション損失を先駆的に導入する。
9つのデータセットの実証的な評価により、PMFの優位性が確認された。
論文 参考訳(メタデータ) (2024-07-23T04:22:30Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - SurvMamba: State Space Model with Multi-grained Multi-modal Interaction for Survival Prediction [8.452410804749512]
生存予測のための多層多モード相互作用(SurvMamba)を用いた状態空間モデルを提案する。
SurvMamba は階層的相互作用 Mamba (HIM) モジュールで実装されている。
インターフェクション・フュージョン・マンバ (IFM) モジュールは、モーダル間インタラクティブ・フュージョンのカスケードに使われ、生存予測のためのより包括的な特徴をもたらす。
論文 参考訳(メタデータ) (2024-04-11T15:58:12Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。