論文の概要: Cross-Modality Gated Attention Fusion for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2208.11893v1
- Date: Thu, 25 Aug 2022 06:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 12:59:46.613623
- Title: Cross-Modality Gated Attention Fusion for Multimodal Sentiment Analysis
- Title(参考訳): マルチモーダル感度解析のためのクロスモーダルGated Attention Fusion
- Authors: Ming Jiang and Shaoxiong Ji
- Abstract要約: マルチモーダル感情分析は、特定の意見ビデオの異なるモダリティデータに基づいて、感情スコアを予測するための重要な研究課題である。
CMGA(Cross-Modality Gated Attention fusion Model for MSA)を提案する。
- 参考スコア(独自算出の注目度): 11.752771311620343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal sentiment analysis is an important research task to predict the
sentiment score based on the different modality data from a specific opinion
video. Many previous pieces of research have proved the significance of
utilizing the shared and unique information across different modalities.
However, the high-order combined signals from multimodal data would also help
extract satisfied representations. In this paper, we propose CMGA, a
Cross-Modality Gated Attention fusion model for MSA that tends to make adequate
interaction across different modality pairs. CMGA also adds a forget gate to
filter the noisy and redundant signals introduced in the interaction procedure.
We experiment on two benchmark datasets in MSA, MOSI, and MOSEI, illustrating
the performance of CMGA over several baseline models. We also conduct the
ablation study to demonstrate the function of different components inside CMGA.
- Abstract(参考訳): マルチモーダル感情分析は、特定の意見ビデオからの異なるモダリティデータに基づいて感情スコアを予測するための重要な研究課題である。
これまでの多くの研究は、異なるモダリティ間で共有情報とユニークな情報を活用することの重要性を証明してきた。
しかし、マルチモーダルデータからの高次結合信号は、満足した表現を抽出するのに役立つ。
本稿では,MSAに対して,異なるモード対間で適切な相互作用を行う傾向のあるCMGAを提案する。
CMGAは、インタラクション手順で導入されたノイズと冗長な信号をフィルタリングする、忘れゲートも追加する。
MSA、MOSI、MOSEIの2つのベンチマークデータセットを実験し、CMGAの性能を複数のベースラインモデルで評価した。
また,CMGA内における各種成分の機能を示すアブレーション実験を行った。
関連論文リスト
- Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - TACOformer:Token-channel compounded Cross Attention for Multimodal
Emotion Recognition [0.951828574518325]
本稿では,チャネルレベルとトークンレベルの相互通信を統合したマルチモーダル融合の包括的視点を提案する。
具体的には,Token-chAnnel Compound (TACO) Cross Attentionというクロスアテンションモジュールを導入する。
また,脳波信号チャネルの空間分布に関する情報を保存するための2次元位置符号化手法を提案する。
論文 参考訳(メタデータ) (2023-06-23T16:28:12Z) - MM-DAG: Multi-task DAG Learning for Multi-modal Data -- with Application
for Traffic Congestion Analysis [24.18136100209761]
マルチタスク・マルチモーダル直接巡回グラフ(MM-DAG)を学習する
本稿では,交通渋滞解析を具体例として取り上げる。
我々は、新しい因果差尺度とその微分可能近似器を開発する。
論文 参考訳(メタデータ) (2023-06-05T12:27:22Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Video-based Cross-modal Auxiliary Network for Multimodal Sentiment
Analysis [16.930624128228658]
音声特徴マップモジュールとクロスモーダル選択モジュールから構成されるビデオベースクロスモーダル補助ネットワーク(VCAN)を提案する。
VCANは、マルチモーダル感情分析の分類精度を向上させる最先端の手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2022-08-30T02:08:06Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。