論文の概要: Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion
- arxiv url: http://arxiv.org/abs/2108.05009v1
- Date: Wed, 11 Aug 2021 03:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:32:37.026424
- Title: Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion
- Title(参考訳): 非対称多層融合による深層マルチモーダル特徴表現の学習
- Authors: Yikai Wang, Fuchun Sun, Ming Lu, Anbang Yao
- Abstract要約: 本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
- 参考スコア(独自算出の注目度): 63.72912507445662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a compact and effective framework to fuse multimodal features at
multiple layers in a single network. The framework consists of two innovative
fusion schemes. Firstly, unlike existing multimodal methods that necessitate
individual encoders for different modalities, we verify that multimodal
features can be learnt within a shared single network by merely maintaining
modality-specific batch normalization layers in the encoder, which also enables
implicit fusion via joint feature representation learning. Secondly, we propose
a bidirectional multi-layer fusion scheme, where multimodal features can be
exploited progressively. To take advantage of such scheme, we introduce two
asymmetric fusion operations including channel shuffle and pixel shift, which
learn different fused features with respect to different fusion directions.
These two operations are parameter-free and strengthen the multimodal feature
interactions across channels as well as enhance the spatial feature
discrimination within channels. We conduct extensive experiments on semantic
segmentation and image translation tasks, based on three publicly available
datasets covering diverse modalities. Results indicate that our proposed
framework is general, compact and is superior to state-of-the-art fusion
frameworks.
- Abstract(参考訳): 本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
この枠組みは2つの革新的な融合スキームで構成されている。
第一に、異なるモダリティに対して個別のエンコーダを必要とする既存のマルチモーダルメソッドとは異なり、エンコーダ内のモダリティ固有のバッチ正規化層を維持するだけで、共有シングルネットワーク内でマルチモーダル機能が学習可能であることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
このようなスキームを活用するために、異なる融合方向に関して異なる融合特徴を学習するチャネルシャッフルとピクセルシフトを含む2つの非対称核融合操作を導入する。
これら2つの操作はパラメータフリーであり、チャネル間のマルチモーダル特徴相互作用を強化し、チャネル内の空間的特徴識別を強化する。
多様なモダリティをカバーする3つの公開データセットに基づいて,セマンティックセグメンテーションと画像翻訳タスクに関する広範な実験を行う。
その結果,提案フレームワークは汎用的でコンパクトであり,最先端の融合フレームワークよりも優れていることがわかった。
関連論文リスト
- Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding [51.96911650437978]
マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。
既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。
マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-19T02:27:30Z) - StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation [63.31007867379312]
我々は,大規模な事前学習モデルを直接エンコーダや機能フューザとして統合するフレームワークであるStitchFusionを提案する。
我々は,エンコーディング中に多方向アダプタモジュール(MultiAdapter)を導入し,モーダル間情報転送を実現する。
本モデルは,最小限の追加パラメータを持つ4つのマルチモーダルセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-02T15:41:16Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - AttX: Attentive Cross-Connections for Fusion of Wearable Signals in
Emotion Recognition [15.21696076393078]
クロスモーダル注意接続は、ウェアラブルデータからマルチモーダル表現学習のための新しい動的かつ効果的な技術である。
我々は、WASAD、SWELL-KW、CASEの3つの公共マルチモーダルウェアラブルデータセットについて広範な実験を行った。
提案手法は,最先端の手法よりも優れた,あるいは競争的な性能を示し,ベースラインのユニモーダル法や古典的マルチモーダル法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-09T17:18:33Z) - CMF: Cascaded Multi-model Fusion for Referring Image Segmentation [24.942658173937563]
本稿では,自然言語表現によって記述された対象に対するセグメンテーションマスクの予測を目的とした画像セグメンテーション(RIS)の課題に対処する。
本稿では,マルチモーダル・フュージョン (CMF) モジュールを提案する。
4つのベンチマークデータセットによる実験結果から,本手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-16T08:18:39Z) - MSAF: Multimodal Split Attention Fusion [6.460517449962825]
我々は,すべてのモダリティにまたがるより帰属的な特徴を強調する新しいマルチモーダル融合モジュールを提案する。
提案手法は,各タスクにおける競合的な結果を達成し,アプリケーション固有のネットワークやマルチモーダル融合ベンチマークより優れている。
論文 参考訳(メタデータ) (2020-12-13T22:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。