論文の概要: TransModality: An End2End Fusion Method with Transformer for Multimodal
Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2009.02902v2
- Date: Mon, 28 Sep 2020 04:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 02:57:06.332862
- Title: TransModality: An End2End Fusion Method with Transformer for Multimodal
Sentiment Analysis
- Title(参考訳): TransModality: Multimodal Sentiment Analysis のための Transformer を用いた End2End Fusion 法
- Authors: Zilong Wang, Zhaohong Wan, and Xiaojun Wan
- Abstract要約: マルチモーダル感情分析の課題に対処する新たな融合手法であるTransModalityを提案する。
我々は、CMU-MOSI、MELD、IEMOCAPという複数のマルチモーダルデータセット上でモデルを検証した。
- 参考スコア(独自算出の注目度): 42.6733747726081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentiment analysis is an important research area that predicts
speaker's sentiment tendency through features extracted from textual, visual
and acoustic modalities. The central challenge is the fusion method of the
multimodal information. A variety of fusion methods have been proposed, but few
of them adopt end-to-end translation models to mine the subtle correlation
between modalities. Enlightened by recent success of Transformer in the area of
machine translation, we propose a new fusion method, TransModality, to address
the task of multimodal sentiment analysis. We assume that translation between
modalities contributes to a better joint representation of speaker's utterance.
With Transformer, the learned features embody the information both from the
source modality and the target modality. We validate our model on multiple
multimodal datasets: CMU-MOSI, MELD, IEMOCAP. The experiments show that our
proposed method achieves the state-of-the-art performance.
- Abstract(参考訳): マルチモーダル感情分析は, テキスト, 視覚的, 音響的モーダル性から抽出した特徴を通して, 話者の感情傾向を予測する重要な研究領域である。
中心的な課題は、マルチモーダル情報の融合方法である。
様々な融合法が提案されているが、モダリティ間の微妙な相関を見極めるためにエンドツーエンドの翻訳モデルを採用するものはほとんどない。
機械翻訳分野における変圧器の最近の成功を悟り,マルチモーダル感情分析の課題に対処すべく,新しい融合法であるtransmodalityを提案する。
モーダリティ間の翻訳は話者の発話のより良い共同表現に寄与していると仮定する。
Transformerでは、学習した特徴が、ソースモダリティとターゲットモダリティの両方から情報を具現化している。
我々は、CMU-MOSI、MELD、IEMOCAPという複数のマルチモーダルデータセット上でモデルを検証した。
実験の結果,提案手法は最先端の性能を実現する。
関連論文リスト
- CMATH: Cross-Modality Augmented Transformer with Hierarchical Variational Distillation for Multimodal Emotion Recognition in Conversation [8.874033487493913]
会話におけるマルチモーダル感情認識は、会話発話中の感情を正確に識別することを目的としている。
CMATHと呼ばれる2つの主要成分から構成される階層的変分蒸留を用いたクロスモダリティ拡張変圧器を提案する。
IEMOCAPとMELDデータセットの実験により、提案したモデルが従来の最先端ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T09:23:02Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Multistage linguistic conditioning of convolutional layers for speech
emotion recognition [7.482371204083917]
分類的・次元音声感情認識(SER)におけるテキストと音声の深層融合の有効性について検討する。
深層ニューラルネットワーク(DNN)の複数の層に2つの情報ストリームを統合する新しい多段階融合法を提案する。
広く使われているIEMOCAPとMSP-Podcastデータベースの実験により、この2つの融合法は浅い(後期)核融合ベースラインよりも明らかに優れていることが示された。
論文 参考訳(メタデータ) (2021-10-13T11:28:04Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。