論文の概要: Deep Multimodal Fusion by Channel Exchanging
- arxiv url: http://arxiv.org/abs/2011.05005v2
- Date: Sat, 5 Dec 2020 05:42:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 06:56:14.611629
- Title: Deep Multimodal Fusion by Channel Exchanging
- Title(参考訳): チャネル交換による深部マルチモーダル核融合
- Authors: Yikai Wang, Wenbing Huang, Fuchun Sun, Tingyang Xu, Yu Rong, Junzhou
Huang
- Abstract要約: 本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
- 参考スコア(独自算出の注目度): 87.40768169300898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep multimodal fusion by using multiple sources of data for classification
or regression has exhibited a clear advantage over the unimodal counterpart on
various applications. Yet, current methods including aggregation-based and
alignment-based fusion are still inadequate in balancing the trade-off between
inter-modal fusion and intra-modal processing, incurring a bottleneck of
performance improvement. To this end, this paper proposes
Channel-Exchanging-Network (CEN), a parameter-free multimodal fusion framework
that dynamically exchanges channels between sub-networks of different
modalities. Specifically, the channel exchanging process is self-guided by
individual channel importance that is measured by the magnitude of
Batch-Normalization (BN) scaling factor during training. The validity of such
exchanging process is also guaranteed by sharing convolutional filters yet
keeping separate BN layers across modalities, which, as an add-on benefit,
allows our multimodal architecture to be almost as compact as a unimodal
network. Extensive experiments on semantic segmentation via RGB-D data and
image translation through multi-domain input verify the effectiveness of our
CEN compared to current state-of-the-art methods. Detailed ablation studies
have also been carried out, which provably affirm the advantage of each
component we propose. Our code is available at https://github.com/yikaiw/CEN.
- Abstract(参考訳): 分類や回帰のために複数のデータソースを使用することによる深いマルチモーダル融合は、様々なアプリケーションでユニモーダルのものよりも明らかに有利である。
しかし、アグリゲーションベースやアライメントベースのフュージョンを含む現在の手法は、モーダル間フュージョンとモーダル内プロセッシングのトレードオフのバランスが不適切であり、パフォーマンス改善のボトルネックを引き起こしている。
そこで本研究では,パラメータフリーなマルチモーダル融合フレームワークであるCENを提案し,異なるモードのサブネットワーク間でチャネルを動的に交換する。
具体的には、チャネル交換プロセスは、トレーニング中のBatch-Normalization(BN)スケーリングファクタの大きさによって測定される個々のチャネル重要度によって自己誘導される。
このような交換プロセスの有効性は、畳み込みフィルタを共有しながら、別々のbn層をモダリティにわたって保持することで保証されます。
RGB-Dデータによるセマンティックセグメンテーションとマルチドメイン入力による画像翻訳の広範な実験は、現在の最先端手法と比較してCENの有効性を検証する。
詳細なアブレーション研究も行われており,提案する各成分の利点を裏付けるものである。
私たちのコードはhttps://github.com/yikaiw/cenで入手できる。
関連論文リスト
- SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion [59.96233305733875]
時系列予測は、金融、交通管理、エネルギー、医療など様々な分野で重要な役割を果たしている。
いくつかの方法は、注意やミキサーのようなメカニズムを利用して、チャネル相関をキャプチャすることでこの問題に対処する。
本稿では,効率的なモデルであるSOFTS(Series-cOre Fused Time Series forecaster)を提案する。
論文 参考訳(メタデータ) (2024-04-22T14:06:35Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Dynamic Multimodal Fusion [8.530680502975095]
動的マルチモーダル融合(DynMM)は,マルチモーダルデータを適応的に融合し,推論中にデータ依存の前方経路を生成する新しい手法である。
様々なマルチモーダルタスクの結果は、我々のアプローチの効率性と幅広い適用性を示している。
論文 参考訳(メタデータ) (2022-03-31T21:35:13Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - A cross-modal fusion network based on self-attention and residual
structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。
提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。
実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文 参考訳(メタデータ) (2021-11-03T12:24:03Z) - Deep feature selection-and-fusion for RGB-D semantic segmentation [8.831857715361624]
本研究は,fsfnet (unified and efficient feature selection and-fusion network) を提案する。
FSFNetは、マルチモダリティ情報の明示的な融合に使用される対称クロスモダリティ残留融合モジュールを含む。
最新の手法と比較すると,提案モデルが2つの公開データセットで競合性能を発揮できることを実験的に評価した。
論文 参考訳(メタデータ) (2021-05-10T04:02:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。