論文の概要: LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences
- arxiv url: http://arxiv.org/abs/2112.01697v1
- Date: Fri, 3 Dec 2021 03:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 14:33:12.444330
- Title: LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences
- Title(参考訳): LMR-CBT:不整列マルチモーダルシーケンスからのマルチモーダル感情認識のためのCB変換器を用いた学習モダリティ融合表現
- Authors: Ziwang Fu, Feng Liu, Hanyang Wang, Siyuan Shen, Jiahao Zhang, Jiayin
Qi, Xiangling Fu, Aimin Zhou
- Abstract要約: マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。
3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
- 参考スコア(独自算出の注目度): 5.570499497432848
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning modality-fused representations and processing unaligned multimodal
sequences are meaningful and challenging in multimodal emotion recognition.
Existing approaches use directional pairwise attention or a message hub to fuse
language, visual, and audio modalities. However, those approaches introduce
information redundancy when fusing features and are inefficient without
considering the complementarity of modalities. In this paper, we propose an
efficient neural network to learn modality-fused representations with
CB-Transformer (LMR-CBT) for multimodal emotion recognition from unaligned
multimodal sequences. Specifically, we first perform feature extraction for the
three modalities respectively to obtain the local structure of the sequences.
Then, we design a novel transformer with cross-modal blocks (CB-Transformer)
that enables complementary learning of different modalities, mainly divided
into local temporal learning,cross-modal feature fusion and global
self-attention representations. In addition, we splice the fused features with
the original features to classify the emotions of the sequences. Finally, we
conduct word-aligned and unaligned experiments on three challenging datasets,
IEMOCAP, CMU-MOSI, and CMU-MOSEI. The experimental results show the superiority
and efficiency of our proposed method in both settings. Compared with the
mainstream methods, our approach reaches the state-of-the-art with a minimum
number of parameters.
- Abstract(参考訳): マルチモーダルな感情認識において、モダリティ融合表現の学習と非整合型マルチモーダルシーケンスの処理は有意義かつ困難である。
既存のアプローチでは、双方向の注目またはメッセージハブを使用して、言語、視覚、オーディオのモダリティを融合する。
しかし、これらのアプローチは特徴を融合する際に情報冗長性を導入し、モダリティの相補性を考慮せずに非効率である。
本稿では,cb-transformer (lmr-cbt) を用いたモダリティ融合表現を学習する効率的なニューラルネットワークを提案する。
具体的には,まず3つのモダリティの特徴抽出を行い,各配列の局所構造を得る。
そこで我々は,異なるモーダルの相補的学習を可能にするクロスモーダルブロック(CB-Transformer)を設計し,主に局所時間学習,クロスモーダル特徴融合,グローバル自己注意表現に分割した。
さらに、融合した特徴を元の特徴で分割し、シーケンスの感情を分類する。
最後に,IEMOCAP,CMU-MOSI,CMU-MOSEIの3つの挑戦的データセットについて,単語整列実験を行った。
実験の結果,提案手法の両設定における優位性と効率性を示した。
主流手法と比較して,本手法は最小限のパラメータで最先端に到達する。
関連論文リスト
- Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - RGBT Tracking via Progressive Fusion Transformer with Dynamically Guided
Learning [37.067605349559]
本稿ではProFormerと呼ばれる新しいプログレッシブフュージョントランスを提案する。
単一のモダリティ情報をマルチモーダル表現に統合し、堅牢なRGBT追跡を行う。
ProFormerは、RGBT210、RGBT234、LasHeR、VTUAVデータセットに新しい最先端パフォーマンスを設定する。
論文 参考訳(メタデータ) (2023-03-26T16:55:58Z) - Multilevel Transformer For Multimodal Emotion Recognition [6.0149102420697025]
本稿では,微粒化表現と事前学習した発話レベル表現を組み合わせた新しい多粒度フレームワークを提案する。
本研究では,Transformer TTSにインスパイアされたマルチレベルトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-10-26T10:31:24Z) - An Efficient End-to-End Transformer with Progressive Tri-modal Attention
for Multi-modal Emotion Recognition [27.96711773593048]
本稿では,マルチモーダル・エンド・ツー・エンド・トランス (ME2ET) を提案する。
低レベルにおいては、2パス戦略を採用することで、3モーダルな特徴相互作用をモデル化できるプログレッシブ・トリモーダル・アテンションを提案する。
高いレベルでは、3つのモーダルのセマンティック表現を明示的に集約する三モーダル特徴融合層を導入する。
論文 参考訳(メタデータ) (2022-09-20T14:51:38Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z) - A cross-modal fusion network based on self-attention and residual
structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。
提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。
実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文 参考訳(メタデータ) (2021-11-03T12:24:03Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。