論文の概要: MANGO: Multimodal Attention-based Normalizing Flow Approach to Fusion Learning
- arxiv url: http://arxiv.org/abs/2508.10133v1
- Date: Wed, 13 Aug 2025 18:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.089546
- Title: MANGO: Multimodal Attention-based Normalizing Flow Approach to Fusion Learning
- Title(参考訳): MANGO:Multimodal Attention-based Normalizing Flow Approach to Fusion Learning
- Authors: Thanh-Dat Truong, Christophe Bobda, Nitin Agarwal, Khoa Luu,
- Abstract要約: 本稿では,マルチモーダルアテンションに基づく正規化フロー(MANGO)アプローチを提案する。
マルチモーダルデータのための正規化フローベースモデルを開発するために,新しい非可逆クロスアテンション層を提案する。
また,MMCA(Modality-to-Modality Cross-Attention),IMCA(Inter-Modality Cross-Attention),ICA(Learable Inter-Modality Cross-Attention)の3つの新しいクロスアテンション機構を導入する。
- 参考スコア(独自算出の注目度): 12.821814562210632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning has gained much success in recent years. However, current multimodal fusion methods adopt the attention mechanism of Transformers to implicitly learn the underlying correlation of multimodal features. As a result, the multimodal model cannot capture the essential features of each modality, making it difficult to comprehend complex structures and correlations of multimodal inputs. This paper introduces a novel Multimodal Attention-based Normalizing Flow (MANGO) approach\footnote{The source code of this work will be publicly available.} to developing explicit, interpretable, and tractable multimodal fusion learning. In particular, we propose a new Invertible Cross-Attention (ICA) layer to develop the Normalizing Flow-based Model for multimodal data. To efficiently capture the complex, underlying correlations in multimodal data in our proposed invertible cross-attention layer, we propose three new cross-attention mechanisms: Modality-to-Modality Cross-Attention (MMCA), Inter-Modality Cross-Attention (IMCA), and Learnable Inter-Modality Cross-Attention (LICA). Finally, we introduce a new Multimodal Attention-based Normalizing Flow to enable the scalability of our proposed method to high-dimensional multimodal data. Our experimental results on three different multimodal learning tasks, i.e., semantic segmentation, image-to-image translation, and movie genre classification, have illustrated the state-of-the-art (SoTA) performance of the proposed approach.
- Abstract(参考訳): マルチモーダル学習は近年大きな成功を収めている。
しかし、現在のマルチモーダル融合法では、トランスフォーマーの注意機構を用いて、マルチモーダル特徴の根底にある相関関係を暗黙的に学習している。
その結果、マルチモーダルモデルは各モーダルの本質的な特徴を捉えることができず、複雑な構造やマルチモーダル入力の相関を理解することは困難である。
本稿では,Multimodal Attention-based Normalizing Flow (MANGO) approach\footnote{本研究のソースコードを公開する。
明示的で、解釈可能で、トラクタブルなマルチモーダル・フュージョン・ラーニングを開発する。
特に,マルチモーダルデータのための正規化フローベースモデルを開発するために,新しい非可逆クロスアテンション(ICA)層を提案する。
提案する可逆的クロスアテンション層におけるマルチモーダルデータの複雑な相関関係を効率的に把握するために, MMCA (Modality-to-Modality Cross-Attention) とIMCA (Inter-Modality Cross-Attention) とLearningable Inter-Modality Cross-Attention (LICA) の3つの新しいクロスアテンション機構を提案する。
最後に,提案手法の高次元マルチモーダルデータへの拡張性を実現するために,新しいマルチモーダルアテンションに基づく正規化フローを提案する。
本研究は,3種類のマルチモーダル学習課題,すなわちセマンティックセグメンテーション,イメージ・ツー・イメージ翻訳,映画ジャンル分類に関する実験結果から,提案手法の最先端(SoTA)性能を実証した。
関連論文リスト
- U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。