論文の概要: Memory based fusion for multi-modal deep learning
- arxiv url: http://arxiv.org/abs/2007.08076v3
- Date: Fri, 23 Oct 2020 05:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 21:57:41.773121
- Title: Memory based fusion for multi-modal deep learning
- Title(参考訳): マルチモーダル深層学習のためのメモリベース融合
- Authors: Darshana Priyasad, Tharindu Fernando, Simon Denman, Sridha Sridharan,
Clinton Fookes
- Abstract要約: メモリベースのAttentive Fusionレイヤは、現在の機能と長期依存の両方をデータに組み込むことで、モードをフューズする。
データに現在の特徴と長期的依存関係の両方を組み込むことで、モデムを融合するメモリベースのアテンティブフュージョン層を新たに提案する。
- 参考スコア(独自算出の注目度): 39.29589204750581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of multi-modal data for deep machine learning has shown promise when
compared to uni-modal approaches with fusion of multi-modal features resulting
in improved performance in several applications. However, most state-of-the-art
methods use naive fusion which processes feature streams independently,
ignoring possible long-term dependencies within the data during fusion. In this
paper, we present a novel Memory based Attentive Fusion layer, which fuses
modes by incorporating both the current features and longterm dependencies in
the data, thus allowing the model to understand the relative importance of
modes over time. We introduce an explicit memory block within the fusion layer
which stores features containing long-term dependencies of the fused data. The
feature inputs from uni-modal encoders are fused through attentive composition
and transformation followed by naive fusion of the resultant memory derived
features with layer inputs. Following state-of-the-art methods, we have
evaluated the performance and the generalizability of the proposed fusion
approach on two different datasets with different modalities. In our
experiments, we replace the naive fusion layer in benchmark networks with our
proposed layer to enable a fair comparison. Experimental results indicate that
the MBAF layer can generalise across different modalities and networks to
enhance fusion and improve performance.
- Abstract(参考訳): 深層機械学習におけるマルチモーダルデータの利用は、マルチモーダル機能の融合によるユニモーダルアプローチと比較して、いくつかのアプリケーションでパフォーマンスが向上することを示す。
しかし、最先端のほとんどのメソッドは、独立してストリームを処理し、融合中にデータ内の長期的な依存関係を無視するナイーブ・フュージョンを使っている。
本稿では,データに現在の特徴と長期的依存関係の両方を取り入れることで,モードの相対的重要性を時間とともに理解し,モデムを融合させる新しいメモリベース注意融合層を提案する。
我々は,融合層内に,融合データの長期的依存関係を含む特徴を格納する明示的なメモリブロックを導入する。
ユニモーダルエンコーダからの特徴入力は、注意構成と変換によって融合され、続いて、結果メモリから得られた特徴を層入力で融合する。
最新手法に従い,異なるモーダル性を持つ2つの異なるデータセット上での核融合手法の性能と一般化性を評価した。
実験では,ベンチマークネットワークにおける単純な融合層を,提案した層に置き換え,公正な比較を可能にする。
実験結果から,MBAF層は様々なモダリティやネットワークをまたいだ一般化が可能であり,融合の促進と性能の向上が期待できる。
関連論文リスト
- From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Improving Multimodal Fusion with Hierarchical Mutual Information
Maximization for Multimodal Sentiment Analysis [16.32509144501822]
本稿では,MultiModal InfoMax (MMIM) というフレームワークを提案する。
このフレームワークは、下流のMSAタスクのパフォーマンスを改善するために、メインタスク(MSA)と共同で訓練されている。
論文 参考訳(メタデータ) (2021-09-01T14:45:16Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Multimodal Fusion Refiner Networks [22.93868090722948]
Refiner Fusion Network (ReFNet) を開発し, 融合モジュールが強い一助表現と強いマルチモーダル表現を組み合わせられるようにした。
ReFNetは、融合ネットワークと復号/復号モジュールを結合し、モダリティ中心の責任条件を課す。
我々はRefiner Fusion Networkがマルチモーダルトランスなどの強力なベースライン融合モジュールの性能を向上させることを実証した。
論文 参考訳(メタデータ) (2021-04-08T00:02:01Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z) - Investigating Vulnerability to Adversarial Examples on Multimodal Data
Fusion in Deep Learning [32.125310341415755]
本研究では,現在のマルチモーダル核融合モデルが相補的インテリジェンスを利用して敵攻撃を防いでいるかを検討した。
予測精度の向上のために最適化されたマルチモーダル融合モデルは, たとえ1つのセンサのみを攻撃しても, 敵攻撃に対して脆弱であることを確認した。
論文 参考訳(メタデータ) (2020-05-22T03:45:06Z) - Multi-Modality Cascaded Fusion Technology for Autonomous Driving [18.93984652806857]
本稿では,決定レベルと特徴レベルの融合の利点を生かした,汎用的なマルチモーダリティ・カスケード融合フレームワークを提案する。
融合過程において、異なるモードからセンサ間の誤差を低減するために動的座標アライメント(DCA)を行う。
提案手法は, エンド・ツー・エンド・フュージョン法に比べ, より解釈しやすく, 柔軟である。
論文 参考訳(メタデータ) (2020-02-08T10:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。