論文の概要: Deep Equilibrium Multimodal Fusion
- arxiv url: http://arxiv.org/abs/2306.16645v1
- Date: Thu, 29 Jun 2023 03:02:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 14:56:47.257492
- Title: Deep Equilibrium Multimodal Fusion
- Title(参考訳): 深部平衡多モード核融合
- Authors: Jinhong Ni, Yalong Bai, Wei Zhang, Ting Yao, Tao Mei
- Abstract要約: 多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
- 参考スコア(独自算出の注目度): 88.04713412107947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal fusion integrates the complementary information present in
multiple modalities and has gained much attention recently. Most existing
fusion approaches either learn a fixed fusion strategy during training and
inference, or are only capable of fusing the information to a certain extent.
Such solutions may fail to fully capture the dynamics of interactions across
modalities especially when there are complex intra- and inter-modality
correlations to be considered for informative multimodal fusion. In this paper,
we propose a novel deep equilibrium (DEQ) method towards multimodal fusion via
seeking a fixed point of the dynamic multimodal fusion process and modeling the
feature correlations in an adaptive and recursive manner. This new way encodes
the rich information within and across modalities thoroughly from low level to
high level for efficacious downstream multimodal learning and is readily
pluggable to various multimodal frameworks. Extensive experiments on BRCA,
MM-IMDB, CMU-MOSI, SUN RGB-D, and VQA-v2 demonstrate the superiority of our DEQ
fusion. More remarkably, DEQ fusion consistently achieves state-of-the-art
performance on multiple multimodal benchmarks. The code will be released.
- Abstract(参考訳): マルチモーダル融合(multimodal fusion)は、複数のモーダルに存在する補完的情報を統合し、近年注目を集めている。
既存の融合アプローチのほとんどは、トレーニングと推論の間に固定された融合戦略を学ぶか、ある程度の情報だけを融合させることができる。
このような解は、特に情報的マルチモーダル融合のために考慮すべき複雑なモダリティ内およびモダリティ間相関が存在する場合、モダリティ間の相互作用のダイナミクスを完全に捉えることができない。
本稿では,動的マルチモーダル融合プロセスの固定点を探索し,適応的かつ再帰的に特徴相関をモデル化することで,多モーダル核融合に向けた新しいDeep equilibrium (DEQ)法を提案する。
この新しい手法は、低レベルから高レベルまで多モード間のリッチな情報をエンコードし、様々なマルチモーダルフレームワークに簡単にプラグインできる。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の大規模な実験により,DEC融合の優位性が示された。
さらに驚くべきことに、DEC融合は複数のマルチモーダルベンチマークにおける最先端のパフォーマンスを一貫して達成する。
コードはリリースされます。
関連論文リスト
- Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding [51.96911650437978]
マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。
既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。
マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-19T02:27:30Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Self-MI: Efficient Multimodal Fusion via Self-Supervised Multi-Task
Learning with Auxiliary Mutual Information Maximization [2.4660652494309936]
マルチモーダル表現学習は重要な課題である。
既存の手法は、しばしば各モダリティの固有の特性を利用するのに苦労する。
本研究では,自己教師型学習方式のセルフMIを提案する。
論文 参考訳(メタデータ) (2023-11-07T08:10:36Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - IMF: Interactive Multimodal Fusion Model for Link Prediction [13.766345726697404]
異なるモダリティからの知識を統合するために,インタラクティブ・マルチモーダル・フュージョン(IMF)モデルを導入する。
提案手法は,実世界の複数のデータセットに対する経験的評価によって有効であることが実証された。
論文 参考訳(メタデータ) (2023-03-20T01:20:02Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - A novel multimodal fusion network based on a joint coding model for lane
line segmentation [22.89466867866239]
本稿では,情報理論の観点から新しいマルチモーダル融合アーキテクチャを提案する。
LiDARカメラ融合ネットワークを用いた実用性を発揮します。
我々の最適核融合ネットワークは85%以上の車線精度と98.7%以上の全体を達成する。
論文 参考訳(メタデータ) (2021-03-20T06:47:58Z) - Investigating Vulnerability to Adversarial Examples on Multimodal Data
Fusion in Deep Learning [32.125310341415755]
本研究では,現在のマルチモーダル核融合モデルが相補的インテリジェンスを利用して敵攻撃を防いでいるかを検討した。
予測精度の向上のために最適化されたマルチモーダル融合モデルは, たとえ1つのセンサのみを攻撃しても, 敵攻撃に対して脆弱であることを確認した。
論文 参考訳(メタデータ) (2020-05-22T03:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。