論文の概要: LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences
- arxiv url: http://arxiv.org/abs/2112.01697v1
- Date: Fri, 3 Dec 2021 03:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 14:33:12.444330
- Title: LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences
- Title(参考訳): LMR-CBT:不整列マルチモーダルシーケンスからのマルチモーダル感情認識のためのCB変換器を用いた学習モダリティ融合表現
- Authors: Ziwang Fu, Feng Liu, Hanyang Wang, Siyuan Shen, Jiahao Zhang, Jiayin
Qi, Xiangling Fu, Aimin Zhou
- Abstract要約: マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。
3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
- 参考スコア(独自算出の注目度): 5.570499497432848
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning modality-fused representations and processing unaligned multimodal
sequences are meaningful and challenging in multimodal emotion recognition.
Existing approaches use directional pairwise attention or a message hub to fuse
language, visual, and audio modalities. However, those approaches introduce
information redundancy when fusing features and are inefficient without
considering the complementarity of modalities. In this paper, we propose an
efficient neural network to learn modality-fused representations with
CB-Transformer (LMR-CBT) for multimodal emotion recognition from unaligned
multimodal sequences. Specifically, we first perform feature extraction for the
three modalities respectively to obtain the local structure of the sequences.
Then, we design a novel transformer with cross-modal blocks (CB-Transformer)
that enables complementary learning of different modalities, mainly divided
into local temporal learning,cross-modal feature fusion and global
self-attention representations. In addition, we splice the fused features with
the original features to classify the emotions of the sequences. Finally, we
conduct word-aligned and unaligned experiments on three challenging datasets,
IEMOCAP, CMU-MOSI, and CMU-MOSEI. The experimental results show the superiority
and efficiency of our proposed method in both settings. Compared with the
mainstream methods, our approach reaches the state-of-the-art with a minimum
number of parameters.
- Abstract(参考訳): マルチモーダルな感情認識において、モダリティ融合表現の学習と非整合型マルチモーダルシーケンスの処理は有意義かつ困難である。
既存のアプローチでは、双方向の注目またはメッセージハブを使用して、言語、視覚、オーディオのモダリティを融合する。
しかし、これらのアプローチは特徴を融合する際に情報冗長性を導入し、モダリティの相補性を考慮せずに非効率である。
本稿では,cb-transformer (lmr-cbt) を用いたモダリティ融合表現を学習する効率的なニューラルネットワークを提案する。
具体的には,まず3つのモダリティの特徴抽出を行い,各配列の局所構造を得る。
そこで我々は,異なるモーダルの相補的学習を可能にするクロスモーダルブロック(CB-Transformer)を設計し,主に局所時間学習,クロスモーダル特徴融合,グローバル自己注意表現に分割した。
さらに、融合した特徴を元の特徴で分割し、シーケンスの感情を分類する。
最後に,IEMOCAP,CMU-MOSI,CMU-MOSEIの3つの挑戦的データセットについて,単語整列実験を行った。
実験の結果,提案手法の両設定における優位性と効率性を示した。
主流手法と比較して,本手法は最小限のパラメータで最先端に到達する。
関連論文リスト
- Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers [41.54004590821323]
マルチモーダルなセマンティックな特徴に対して,深いモーダルアライメントを用いたパラメータ効率の高いオーディオ視覚変換器MA-AVTを提案する。
具体的には,2つのモダリティを凍結したモダリティシェード変圧器で整列するための共同一様・多モードトークン学習を導入する。
ユニモーダルエンコーダの出力から得られた粗い特徴のみを整列する以前の作業とは異なり、粗大から細小の階層的特徴を整列するブロックワイドコントラスト学習を導入する。
論文 参考訳(メタデータ) (2024-06-07T13:35:44Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - RGBT Tracking via Progressive Fusion Transformer with Dynamically Guided
Learning [37.067605349559]
本稿ではProFormerと呼ばれる新しいプログレッシブフュージョントランスを提案する。
単一のモダリティ情報をマルチモーダル表現に統合し、堅牢なRGBT追跡を行う。
ProFormerは、RGBT210、RGBT234、LasHeR、VTUAVデータセットに新しい最先端パフォーマンスを設定する。
論文 参考訳(メタデータ) (2023-03-26T16:55:58Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - A cross-modal fusion network based on self-attention and residual
structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。
提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。
実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文 参考訳(メタデータ) (2021-11-03T12:24:03Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。