論文の概要: MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2201.09828v1
- Date: Mon, 24 Jan 2022 17:48:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 15:44:24.929360
- Title: MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis
- Title(参考訳): MMLatch:マルチモーダルセンシング分析のためのボトムアップトップダウンフュージョン
- Authors: Georgios Paraskevopoulos, Efthymios Georgiou, Alexandros Potamianos
- Abstract要約: マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 84.7287684402508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current deep learning approaches for multimodal fusion rely on bottom-up
fusion of high and mid-level latent modality representations (late/mid fusion)
or low level sensory inputs (early fusion). Models of human perception
highlight the importance of top-down fusion, where high-level representations
affect the way sensory inputs are perceived, i.e. cognition affects perception.
These top-down interactions are not captured in current deep learning models.
In this work we propose a neural architecture that captures top-down
cross-modal interactions, using a feedback mechanism in the forward pass during
network training. The proposed mechanism extracts high-level representations
for each modality and uses these representations to mask the sensory inputs,
allowing the model to perform top-down feature masking. We apply the proposed
model for multimodal sentiment recognition on CMU-MOSEI. Our method shows
consistent improvements over the well established MulT and over our strong late
fusion baseline, achieving state-of-the-art results.
- Abstract(参考訳): 現在のマルチモーダル核融合の深層学習手法は、高次および中級潜伏モード表現(後期核融合)または低次感覚入力(初期核融合)のボトムアップ融合に依存している。
人間の知覚のモデルはトップダウン融合の重要性を強調し、ハイレベル表現は感覚入力の知覚方法、すなわち認知が知覚に影響する。
これらのトップダウンインタラクションは、現在のディープラーニングモデルでは捉えられません。
本研究では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルアーキテクチャを提案する。
提案機構は各モードの高レベル表現を抽出し,これらの表現を用いて感覚入力をマスキングし,トップダウンの特徴マスキングを行う。
CMU-MOSEIにおけるマルチモーダル感情認識モデルを適用した。
本手法は, 確立されたMulT, 強力な後期核融合ベースラインに対して一貫した改良を行い, 最先端の結果を得た。
関連論文リスト
- MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multimodal Latent Emotion Recognition from Micro-expression and
Physiological Signals [11.05207353295191]
本稿では,マルチモーダルデータの導入による潜在感情認識の精度向上のメリットを論じ,マイクロ・エクスプレッション(ME)と生理信号(PS)に着目した。
提案手法では,MEとPSを組み合わせた新しいマルチモーダル学習フレームワークを提案する。
実験の結果,提案手法は,重み付き融合法とガイド付注目モジュールにより,性能向上に寄与することがわかった。
論文 参考訳(メタデータ) (2023-08-23T14:17:44Z) - Bi-level Dynamic Learning for Jointly Multi-modality Image Fusion and
Beyond [50.556961575275345]
補完特性とカスケード二重タスク関連モジュールを融合する画像融合モジュールを構築した。
本研究では, 高速な1次近似により対応する勾配を計算し, 融合学習のための勾配のバランスをとるための動的重み付けアグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-05-11T10:55:34Z) - Progressive Fusion for Multimodal Integration [12.94175198001421]
本稿では,後期融合表現の問題を緩和する,プログレッシブ・フュージョン(Progressive Fusion)と呼ばれる反復的表現洗練手法を提案する。
提案手法は,MSEの5%削減,マルチモーダル時系列予測におけるロバストネスの40%向上など,一貫した性能向上を図っている。
論文 参考訳(メタデータ) (2022-09-01T09:08:33Z) - Cross Attentional Audio-Visual Fusion for Dimensional Emotion Recognition [13.994609732846344]
最も効果的な感情認識技術は、多種多様な情報ソースを効果的に活用する。
本稿では,音声視覚(A-V)モダリティ間で有意な特徴を抽出するための相互注意型融合手法を提案する。
その結果、我々のA-V融合モデルは、最先端の融合アプローチよりも優れたコスト効率のアプローチであることが示唆された。
論文 参考訳(メタデータ) (2021-11-09T16:01:56Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Low Rank Fusion based Transformers for Multimodal Sequences [9.507869508188266]
CMU-MOSEI, CMU-MOSI, IEMOCAPデータセットを用いたマルチモーダル知覚と感情認識の2つの手法を提案する。
我々のモデルはより少ないパラメータを持ち、より速く訓練し、多くの大規模な核融合ベースのアーキテクチャと相容れない性能を発揮する。
論文 参考訳(メタデータ) (2020-07-04T08:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。