Fugu-MT 論文翻訳(概要): AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal Alignment

論文の概要: AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal Alignment

arxiv url: http://arxiv.org/abs/2412.00833v1
Date: Sun, 01 Dec 2024 14:47:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.205958
Title: AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal Alignment
Title（参考訳）: AlignMamba: ローカルおよびグローバルなクロスモーダルアライメントを備えたマルチモーダルマンバの実現
Authors: Yan Li, Yifei Xing, Xiangyuan Lan, Xin Li, Haifeng Chen, Dongmei Jiang,
Abstract要約: クロスモーダルアライメントはマルチモーダル表現融合に不可欠である。マルチモーダル核融合の効率的かつ効率的な方法であるAlignMambaを提案する。完全かつ不完全なマルチモーダル核融合タスクの実験は,提案手法の有効性と有効性を示す。
参考スコア（独自算出の注目度）: 37.213291617683325
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Cross-modal alignment is crucial for multimodal representation fusion due to the inherent heterogeneity between modalities. While Transformer-based methods have shown promising results in modeling inter-modal relationships, their quadratic computational complexity limits their applicability to long-sequence or large-scale data. Although recent Mamba-based approaches achieve linear complexity, their sequential scanning mechanism poses fundamental challenges in comprehensively modeling cross-modal relationships. To address this limitation, we propose AlignMamba, an efficient and effective method for multimodal fusion. Specifically, grounded in Optimal Transport, we introduce a local cross-modal alignment module that explicitly learns token-level correspondences between different modalities. Moreover, we propose a global cross-modal alignment loss based on Maximum Mean Discrepancy to implicitly enforce the consistency between different modal distributions. Finally, the unimodal representations after local and global alignment are passed to the Mamba backbone for further cross-modal interaction and multimodal fusion. Extensive experiments on complete and incomplete multimodal fusion tasks demonstrate the effectiveness and efficiency of the proposed method.
Abstract（参考訳）: クロスモーダルアライメントは、モダリティ間の固有の不均一性のために多重モーダル表現融合に不可欠である。 Transformerベースの手法は、モーダル間関係のモデリングにおいて有望な結果を示しているが、その2次計算複雑性は、長いシーケンスや大規模データに適用性を制限する。最近のMambaベースのアプローチは線形複雑性を実現するが、そのシーケンシャルスキャン機構は、クロスモーダル関係を包括的にモデル化する上で、根本的な課題をもたらす。この制限に対処するために、マルチモーダル融合の効率的かつ効果的な方法であるAlignMambaを提案する。具体的には、最適輸送を基盤として、異なるモダリティ間のトークンレベル対応を明示的に学習する、局所的なクロスモーダルアライメントモジュールを導入する。さらに,各モーダル分布間の一貫性を暗黙的に強制するために,最大平均離散度に基づくグローバルなモーダルアライメント損失を提案する。最後に、局所的および大域的なアライメント後の一方向の表現は、さらなるクロスモーダル相互作用とマルチモーダル融合のためにマンバのバックボーンに渡される。完全かつ不完全なマルチモーダル核融合タスクに関する広範囲な実験は,提案手法の有効性と効率を実証する。

関連論文リスト

InfoMAE: Pair-Efficient Cross-Modal Alignment for Multimodal Time-Series Sensing Signals [9.648001493025204]
InfoMAEは、SSL設定下でのマルチモーダルペア効率の課題に取り組む、クロスモーダルアライメントフレームワークである。下流のマルチモーダルタスクを60%以上向上させ、マルチモーダルペアリング効率を大幅に改善した。また、単一タスクの精度を平均22%向上させる。
論文参考訳（メタデータ） (2025-04-13T20:03:29Z)
DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning [7.947217265041953]
マルチモーダル表現学習は、複数のモーダルをまたいだ共有情報と相補的セマンティック情報の両方をキャプチャすることを目的としている。マルチモーダル表現をモダリティ・ユニク(異種)とモダリティ・コモン(異種)に分離するために設計された,新しい階層的クロスモーダルアライメントフレームワークであるDecAlignを紹介する。広く使われている4つのマルチモーダルベンチマーク実験により、DecAlignは既存の最先端手法を一貫して上回っていることが示された。
論文参考訳（メタデータ） (2025-03-14T21:47:48Z)
M$^3$amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification [23.322598623627222]
M$3$ambaは、マルチモーダル融合のための新しいエンドツーエンドのCLIP駆動のMambaモデルである。異なるモダリティの包括的セマンティック理解を実現するために,CLIP駆動型モダリティ固有アダプタを提案する。実験の結果、M$3$ambaは最先端の手法と比較して平均5.98%の性能向上が見られた。
論文参考訳（メタデータ） (2025-03-09T05:06:47Z)
Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文参考訳（メタデータ） (2024-10-15T08:49:38Z)
Lightweight Cross-Modal Representation Learning [0.07499722271664146]
低コストなクロスモーダル表現学習は、テキスト、オーディオ、画像、ビデオなどの様々なモダリティにまたがる意味表現の導出に不可欠である。光CRL(Lightweight Cross-Modal Representation Learning)という新しいアプローチを導入する。この方法では、DFE(Deep Fusion)と呼ばれる単一のニューラルネットワークを使用し、複数のモードから共有潜在表現空間にデータを投影する。
論文参考訳（メタデータ） (2024-03-07T16:50:25Z)
Cross-Modal Prototype based Multimodal Federated Learning under Severely Missing Modality [31.727012729846333]
MFCPL (Multimodal Federated Cross Prototype Learning) は、MFLにおいて、高度に欠落したモダリティの下での新たなアプローチである。 MFCPLは、モダリティ共有レベルにおいて、クロスモーダル正規化とクロスモーダルコントラスト機構を備えたモダリティ固有レベルと共に多様なモダリティ知識を提供する。提案手法では,モーダリティに特有な特徴の正規化を実現するために,クロスモーダルアライメントを導入し,全体的な性能を向上させる。
論文参考訳（メタデータ） (2024-01-25T02:25:23Z)
Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。 MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文参考訳（メタデータ） (2023-11-17T18:57:40Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。 BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文参考訳（メタデータ） (2023-06-29T03:02:20Z)
Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。 QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-03T08:32:35Z)
Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文参考訳（メタデータ） (2022-06-16T07:47:57Z)
Multi-Modal Mutual Information Maximization: A Novel Approach for Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文参考訳（メタデータ） (2021-12-13T08:58:03Z)
Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis [16.32509144501822]
本稿では,MultiModal InfoMax (MMIM) というフレームワークを提案する。このフレームワークは、下流のMSAタスクのパフォーマンスを改善するために、メインタスク(MSA)と共同で訓練されている。
論文参考訳（メタデータ） (2021-09-01T14:45:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。