論文の概要: More than Vanilla Fusion: a Simple, Decoupling-free, Attention Module
for Multimodal Fusion Based on Signal Theory
- arxiv url: http://arxiv.org/abs/2312.07212v1
- Date: Tue, 12 Dec 2023 12:22:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 16:13:01.609842
- Title: More than Vanilla Fusion: a Simple, Decoupling-free, Attention Module
for Multimodal Fusion Based on Signal Theory
- Title(参考訳): more than vanilla fusion:信号理論に基づくマルチモーダル融合のための単純でデカップリングフリーなアテンションモジュール
- Authors: Peiwen Sun, Yifan Zhang, Zishan Liu, Donghao Chen, Honggang Zhang
- Abstract要約: 本稿では,基本信号理論と不確実性理論に基づくバニラ融合のためのプラグアンドプレイアテンションモジュールを提案する。
実験の結果、数行のコードだけで、複数のマルチモーダル分類法に対して最大2.0%の性能改善が達成できることがわかった。
- 参考スコア(独自算出の注目度): 7.054154676427668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The vanilla fusion methods still dominate a large percentage of mainstream
audio-visual tasks. However, the effectiveness of vanilla fusion from a
theoretical perspective is still worth discussing. Thus, this paper reconsiders
the signal fused in the multimodal case from a bionics perspective and proposes
a simple, plug-and-play, attention module for vanilla fusion based on
fundamental signal theory and uncertainty theory. In addition, previous work on
multimodal dynamic gradient modulation still relies on decoupling the
modalities. So, a decoupling-free gradient modulation scheme has been designed
in conjunction with the aforementioned attention module, which has various
advantages over the decoupled one. Experiment results show that just a few
lines of code can achieve up to 2.0% performance improvements to several
multimodal classification methods. Finally, quantitative evaluation of other
fusion tasks reveals the potential for additional application scenarios.
- Abstract(参考訳): バニラ融合法は依然として主流のオーディオ視覚タスクの大部分を占めている。
しかしながら、理論的な観点からバニラ融合の有効性は議論に値する。
そこで本研究では,バイオニクスの観点から,マルチモーダルケースで融合した信号を再考し,基本信号理論と不確実性理論に基づくバニラ融合のための簡易かつプラグアンドプレイアテンションモジュールを提案する。
さらに、これまでのマルチモーダルな動的勾配変調の研究は、モダリティの分離に依存していた。
したがって、デカップリングフリーの勾配変調スキームは前述のアテンションモジュールと連動して設計されており、デカップリングのアテンションモジュールよりも様々な利点がある。
実験の結果、数行のコードで複数のマルチモーダル分類メソッドのパフォーマンスが最大2.0%向上できることが示されている。
最後に、他の融合タスクの定量的評価は、追加のアプリケーションシナリオの可能性を明らかにする。
関連論文リスト
- Predictive Dynamic Fusion [45.551196908423606]
マルチモーダル学習のための予測動的融合(PDF)フレームワークを提案する。
予測可能なコラボレーティブ・リーフ (Co-Belief) とモノ・アンド・ホロ・信頼(英語版)を導出し、一般化誤差の上限を確実に減少させる。
論文 参考訳(メタデータ) (2024-06-07T10:06:13Z) - Improving Multimodal Sentiment Analysis: Supervised Angular Margin-based
Contrastive Learning for Enhanced Fusion Representation [10.44888349041063]
マルチモーダル・センティメント・アナリティクスのためのコントラシブ・ラーニング・フレームワークであるSupervised Angularを導入する。
この枠組みは,マルチモーダル表現の識別と一般化性を高め,融合ベクトルのモダリティのバイアスを克服することを目的としている。
論文 参考訳(メタデータ) (2023-12-04T02:58:19Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - Multimodal sensor fusion in the latent representation space [4.132799233018846]
学習データからマルチモーダル生成モデルを構築する。
第2段階では、生成モデルは、センサー融合タスクの事前と探索多様体の再構成として機能する。
マルチモーダル核融合実験における有効性と優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-03T16:13:24Z) - Balanced Multimodal Learning via On-the-fly Gradient Modulation [10.5602074277814]
マルチモーダル学習は、異なる感覚を統合することで、世界を包括的に理解するのに役立つ。
学習目標に対する貢献の相違をモニタリングすることで,各モードの最適化を適応的に制御するオンザフライ勾配変調を提案する。
論文 参考訳(メタデータ) (2022-03-29T08:26:38Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - ScaleVLAD: Improving Multimodal Sentiment Analysis via Multi-Scale
Fusion of Locally Descriptors [15.042741192427334]
本稿では,テキスト,ビデオ,オーディオからマルチスケール表現を収集する「スケールVLAD」という融合モデルを提案する。
IEMOCAP、MOSI、MOSEIの3つの一般的な感情分析ベンチマークの実験は、ベースラインよりも大幅に向上した。
論文 参考訳(メタデータ) (2021-12-02T16:09:33Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。