論文の概要: Memory based fusion for multi-modal deep learning
- arxiv url: http://arxiv.org/abs/2007.08076v3
- Date: Fri, 23 Oct 2020 05:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 21:57:41.773121
- Title: Memory based fusion for multi-modal deep learning
- Title(参考訳): マルチモーダル深層学習のためのメモリベース融合
- Authors: Darshana Priyasad, Tharindu Fernando, Simon Denman, Sridha Sridharan,
Clinton Fookes
- Abstract要約: メモリベースのAttentive Fusionレイヤは、現在の機能と長期依存の両方をデータに組み込むことで、モードをフューズする。
データに現在の特徴と長期的依存関係の両方を組み込むことで、モデムを融合するメモリベースのアテンティブフュージョン層を新たに提案する。
- 参考スコア(独自算出の注目度): 39.29589204750581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of multi-modal data for deep machine learning has shown promise when
compared to uni-modal approaches with fusion of multi-modal features resulting
in improved performance in several applications. However, most state-of-the-art
methods use naive fusion which processes feature streams independently,
ignoring possible long-term dependencies within the data during fusion. In this
paper, we present a novel Memory based Attentive Fusion layer, which fuses
modes by incorporating both the current features and longterm dependencies in
the data, thus allowing the model to understand the relative importance of
modes over time. We introduce an explicit memory block within the fusion layer
which stores features containing long-term dependencies of the fused data. The
feature inputs from uni-modal encoders are fused through attentive composition
and transformation followed by naive fusion of the resultant memory derived
features with layer inputs. Following state-of-the-art methods, we have
evaluated the performance and the generalizability of the proposed fusion
approach on two different datasets with different modalities. In our
experiments, we replace the naive fusion layer in benchmark networks with our
proposed layer to enable a fair comparison. Experimental results indicate that
the MBAF layer can generalise across different modalities and networks to
enhance fusion and improve performance.
- Abstract(参考訳): 深層機械学習におけるマルチモーダルデータの利用は、マルチモーダル機能の融合によるユニモーダルアプローチと比較して、いくつかのアプリケーションでパフォーマンスが向上することを示す。
しかし、最先端のほとんどのメソッドは、独立してストリームを処理し、融合中にデータ内の長期的な依存関係を無視するナイーブ・フュージョンを使っている。
本稿では,データに現在の特徴と長期的依存関係の両方を取り入れることで,モードの相対的重要性を時間とともに理解し,モデムを融合させる新しいメモリベース注意融合層を提案する。
我々は,融合層内に,融合データの長期的依存関係を含む特徴を格納する明示的なメモリブロックを導入する。
ユニモーダルエンコーダからの特徴入力は、注意構成と変換によって融合され、続いて、結果メモリから得られた特徴を層入力で融合する。
最新手法に従い,異なるモーダル性を持つ2つの異なるデータセット上での核融合手法の性能と一般化性を評価した。
実験では,ベンチマークネットワークにおける単純な融合層を,提案した層に置き換え,公正な比較を可能にする。
実験結果から,MBAF層は様々なモダリティやネットワークをまたいだ一般化が可能であり,融合の促進と性能の向上が期待できる。
関連論文リスト
- Rethinking Normalization Strategies and Convolutional Kernels for Multimodal Image Fusion [25.140475569677758]
マルチモーダル画像融合は、様々なモーダルからの情報を総合的な画像を得るために統合することを目的としている。
既存の手法では、自然画像の融合を優先し、情報補完とネットワークトレーニング戦略に重点を置く傾向にある。
本稿では,融合目標,統計特性,およびデータ分布に関する2つの課題の有意な差異を論じる。
論文 参考訳(メタデータ) (2024-11-15T08:36:24Z) - Appformer: A Novel Framework for Mobile App Usage Prediction Leveraging Progressive Multi-Modal Data Fusion and Feature Extraction [9.53224378857976]
Appformerは、Transformerのようなアーキテクチャの効率性に触発された、新しいモバイルアプリケーション予測フレームワークである。
このフレームワークは、ベースステーションに関連付けられたPoints of Interest(POI)を使用し、比較実験を通じてそれらを最適化し、最も効果的なクラスタリング方法を特定する。
特徴抽出モジュールは、時系列分析に特化したトランスフォーマーのようなアーキテクチャを採用しており、包括的機能を完全に排除している。
論文 参考訳(メタデータ) (2024-07-28T06:41:31Z) - Progressively Modality Freezing for Multi-Modal Entity Alignment [27.77877721548588]
本稿では,アライメント関連特徴に焦点をあてた,PMFと呼ばれる進行モード凍結の新たな戦略を提案する。
特に,本手法では,モーダル整合性を高めるために,クロスモーダルなアソシエーション損失を先駆的に導入する。
9つのデータセットの実証的な評価により、PMFの優位性が確認された。
論文 参考訳(メタデータ) (2024-07-23T04:22:30Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z) - Multimodal Fusion Refiner Networks [22.93868090722948]
Refiner Fusion Network (ReFNet) を開発し, 融合モジュールが強い一助表現と強いマルチモーダル表現を組み合わせられるようにした。
ReFNetは、融合ネットワークと復号/復号モジュールを結合し、モダリティ中心の責任条件を課す。
我々はRefiner Fusion Networkがマルチモーダルトランスなどの強力なベースライン融合モジュールの性能を向上させることを実証した。
論文 参考訳(メタデータ) (2021-04-08T00:02:01Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z) - Multi-Modality Cascaded Fusion Technology for Autonomous Driving [18.93984652806857]
本稿では,決定レベルと特徴レベルの融合の利点を生かした,汎用的なマルチモーダリティ・カスケード融合フレームワークを提案する。
融合過程において、異なるモードからセンサ間の誤差を低減するために動的座標アライメント(DCA)を行う。
提案手法は, エンド・ツー・エンド・フュージョン法に比べ, より解釈しやすく, 柔軟である。
論文 参考訳(メタデータ) (2020-02-08T10:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。