論文の概要: Cross-Modality Gated Attention Fusion for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2208.11893v1
- Date: Thu, 25 Aug 2022 06:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 12:59:46.613623
- Title: Cross-Modality Gated Attention Fusion for Multimodal Sentiment Analysis
- Title(参考訳): マルチモーダル感度解析のためのクロスモーダルGated Attention Fusion
- Authors: Ming Jiang and Shaoxiong Ji
- Abstract要約: マルチモーダル感情分析は、特定の意見ビデオの異なるモダリティデータに基づいて、感情スコアを予測するための重要な研究課題である。
CMGA(Cross-Modality Gated Attention fusion Model for MSA)を提案する。
- 参考スコア(独自算出の注目度): 11.752771311620343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal sentiment analysis is an important research task to predict the
sentiment score based on the different modality data from a specific opinion
video. Many previous pieces of research have proved the significance of
utilizing the shared and unique information across different modalities.
However, the high-order combined signals from multimodal data would also help
extract satisfied representations. In this paper, we propose CMGA, a
Cross-Modality Gated Attention fusion model for MSA that tends to make adequate
interaction across different modality pairs. CMGA also adds a forget gate to
filter the noisy and redundant signals introduced in the interaction procedure.
We experiment on two benchmark datasets in MSA, MOSI, and MOSEI, illustrating
the performance of CMGA over several baseline models. We also conduct the
ablation study to demonstrate the function of different components inside CMGA.
- Abstract(参考訳): マルチモーダル感情分析は、特定の意見ビデオからの異なるモダリティデータに基づいて感情スコアを予測するための重要な研究課題である。
これまでの多くの研究は、異なるモダリティ間で共有情報とユニークな情報を活用することの重要性を証明してきた。
しかし、マルチモーダルデータからの高次結合信号は、満足した表現を抽出するのに役立つ。
本稿では,MSAに対して,異なるモード対間で適切な相互作用を行う傾向のあるCMGAを提案する。
CMGAは、インタラクション手順で導入されたノイズと冗長な信号をフィルタリングする、忘れゲートも追加する。
MSA、MOSI、MOSEIの2つのベンチマークデータセットを実験し、CMGAの性能を複数のベースラインモデルで評価した。
また,CMGA内における各種成分の機能を示すアブレーション実験を行った。
関連論文リスト
- GCM-Net: Graph-enhanced Cross-Modal Infusion with a Metaheuristic-Driven Network for Video Sentiment and Emotion Analysis [2.012311338995539]
本稿では,発話からのマルチモーダルな文脈情報を活用し,メタヒューリスティックなアルゴリズムを用いて発話レベルの感情と感情予測を学習する新しい枠組みを提案する。
提案手法の有効性を示すため,我々は3つの顕著なマルチモーダル・ベンチマーク・データセットについて広範な評価を行った。
論文 参考訳(メタデータ) (2024-10-02T10:07:48Z) - MoME: Mixture of Multimodal Experts for Cancer Survival Prediction [46.520971457396726]
生存分析は、難しい課題として、全体スライド画像(WSI)とゲノムデータを総合的な意思決定のために統合する必要がある。
従来の手法ではコアテンション(co-attention)方式が用いられており、この手法は両方のモダリティから特徴を分離した後にのみ融合する。
符号化と融合を同時に行うBiased Progressive Clever(BPE)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-14T03:44:33Z) - Multimodal Information Interaction for Medical Image Segmentation [24.024848382458767]
革新的マルチモーダル情報クロストランス(MicFormer)について紹介する。
あるモダリティから特徴を問合せし、対応する応答を別のモダリティから取り出し、バイモーダル特徴間の効果的なコミュニケーションを容易にする。
他のマルチモーダルセグメンテーション手法と比較して,本手法はそれぞれ2.83と4.23のマージンで優れていた。
論文 参考訳(メタデータ) (2024-04-25T07:21:14Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Video-based Cross-modal Auxiliary Network for Multimodal Sentiment
Analysis [16.930624128228658]
音声特徴マップモジュールとクロスモーダル選択モジュールから構成されるビデオベースクロスモーダル補助ネットワーク(VCAN)を提案する。
VCANは、マルチモーダル感情分析の分類精度を向上させる最先端の手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2022-08-30T02:08:06Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。