論文の概要: Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2201.06309v1
- Date: Mon, 17 Jan 2022 09:46:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 17:53:40.200796
- Title: Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition
- Title(参考訳): マルチモーダル感情認識のための注意に基づく双方向アライメントに基づくグループゲート融合
- Authors: Pengfei Liu, Kun Li and Helen Meng
- Abstract要約: 本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
- 参考スコア(独自算出の注目度): 63.07844685982738
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Emotion recognition is a challenging and actively-studied research area that
plays a critical role in emotion-aware human-computer interaction systems. In a
multimodal setting, temporal alignment between different modalities has not
been well investigated yet. This paper presents a new model named as Gated
Bidirectional Alignment Network (GBAN), which consists of an attention-based
bidirectional alignment network over LSTM hidden states to explicitly capture
the alignment relationship between speech and text, and a novel group gated
fusion (GGF) layer to integrate the representations of different modalities. We
empirically show that the attention-aligned representations outperform the
last-hidden-states of LSTM significantly, and the proposed GBAN model
outperforms existing state-of-the-art multimodal approaches on the IEMOCAP
dataset.
- Abstract(参考訳): 感情認識は、感情に敏感な人間とコンピュータのインタラクションシステムにおいて重要な役割を果たす、挑戦的で活発に研究されている研究分野である。
マルチモーダル環境では、異なるモーダル間の時間的アライメントはまだ十分に研究されていない。
本稿では,言語とテキストのアライメント関係を明示的に捉えるために,LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルと,異なるモダリティの表現を統合するためのグループゲート融合(GGF)層を提案する。
また,本提案手法により,提案したGBANモデルは,IEMOCAPデータセット上での既存のマルチモーダルアプローチよりも優れていることを示す。
関連論文リスト
- Tracing Intricate Cues in Dialogue: Joint Graph Structure and Sentiment Dynamics for Multimodal Emotion Recognition [37.12407597998884]
マルチモーダル対話における複雑な感情的手がかりを追跡するために,GraphSmileという新しい手法が提案されている。
GraphSmileは2つの重要なコンポーネント、すなわちGSFとSDPモジュールから構成される。
複数のベンチマークにおける実証的な結果は、GraphSmileが複雑な感情的および感情的パターンを処理可能であることを示している。
論文 参考訳(メタデータ) (2024-07-31T11:47:36Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Improving Anomaly Segmentation with Multi-Granularity Cross-Domain
Alignment [17.086123737443714]
異常セグメンテーションは、画像中の非定型物体を識別する上で重要な役割を担っている。
既存の手法は合成データに顕著な結果を示すが、合成データドメインと実世界のデータドメインの相違を考慮できないことが多い。
シーンと個々のサンプルレベルの両方で、ドメイン間の機能を調和させるのに適した、マルチグラニュラリティ・クロスドメインアライメントフレームワークを導入します。
論文 参考訳(メタデータ) (2023-08-16T22:54:49Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - MIR-GAN: Refining Frame-Level Modality-Invariant Representations with
Adversarial Network for Audio-Visual Speech Recognition [23.042478625584653]
フレームレベルのモダリティ不変表現(MIR-GAN)を洗練するための逆ネットワークを提案する。
特に,フレームレベルのモダリティ不変表現(MIR-GAN)を洗練するための逆ネットワークを提案する。
論文 参考訳(メタデータ) (2023-06-18T14:02:20Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。