論文の概要: An Enhanced Dual Transformer Contrastive Network for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2510.23617v1
- Date: Mon, 20 Oct 2025 16:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.218628
- Title: An Enhanced Dual Transformer Contrastive Network for Multimodal Sentiment Analysis
- Title(参考訳): マルチモーダル感性解析のための拡張デュアルトランスコントラストネットワーク
- Authors: Phuong Q. Dao, Mark Roantree, Vuong M. Ngo,
- Abstract要約: まず,テキスト入力に強力なトランスフォーマーベースのエンコーダBERTと,初期融合戦略を通じて視覚入力に有効なViTを組み合わせた新しいモデルであるBERT-ViT-EFを提案する。
モデルの性能をさらに向上させるために、Dual Transformer Contrastive Network (DTCN) と呼ばれる拡張を提案する。
- 参考スコア(独自算出の注目度): 1.0399530974344653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Sentiment Analysis (MSA) seeks to understand human emotions by jointly analyzing data from multiple modalities typically text and images offering a richer and more accurate interpretation than unimodal approaches. In this paper, we first propose BERT-ViT-EF, a novel model that combines powerful Transformer-based encoders BERT for textual input and ViT for visual input through an early fusion strategy. This approach facilitates deeper cross-modal interactions and more effective joint representation learning. To further enhance the model's capability, we propose an extension called the Dual Transformer Contrastive Network (DTCN), which builds upon BERT-ViT-EF. DTCN incorporates an additional Transformer encoder layer after BERT to refine textual context (before fusion) and employs contrastive learning to align text and image representations, fostering robust multimodal feature learning. Empirical results on two widely used MSA benchmarks MVSA-Single and TumEmo demonstrate the effectiveness of our approach. DTCN achieves best accuracy (78.4%) and F1-score (78.3%) on TumEmo, and delivers competitive performance on MVSA-Single, with 76.6% accuracy and 75.9% F1-score. These improvements highlight the benefits of early fusion and deeper contextual modeling in Transformer-based multimodal sentiment analysis.
- Abstract(参考訳): マルチモーダル知覚分析(MSA)は、複数のモーダルからのデータを共同で分析することで人間の感情を理解することを目指している。
本稿では,テキスト入力のための強力なトランスフォーマーベースのエンコーダBERTと,初期融合戦略による視覚入力のためのViTを組み合わせた新しいモデルであるBERT-ViT-EFを提案する。
このアプローチは、より深い相互モーダル相互作用とより効果的な共同表現学習を促進する。
本稿では,BERT-ViT-EFをベースとしたDual Transformer Contrastive Network (DTCN) という拡張を提案する。
DTCNは、BERTの後継となるトランスフォーマーエンコーダ層を組み込み、テキストコンテキスト(融合前)を洗練させ、コントラスト学習を用いてテキストと画像表現を整列させ、堅牢なマルチモーダルな特徴学習を促進する。
MSA ベンチマーク MVSA-Single と TumEmo の2つの実験結果から,本手法の有効性が示された。
DTCNはTumEmoで最高の精度(78.4%)とF1スコア(78.3%)を達成し、MVSA-Singleで76.6%の精度と75.9%のF1スコアで競争力を発揮する。
これらの改善は、Transformerベースのマルチモーダル感情分析における早期融合とより深い文脈モデリングの利点を強調している。
関連論文リスト
- Multimodal Sentiment Analysis on CMU-MOSEI Dataset using Transformer-based Models [0.0]
本研究は,CMU-MOSEIデータセットを用いたマルチモーダル感情分析を行う。
我々は、テキスト、オーディオ、視覚のモダリティを統合するために、早期融合を伴うトランスフォーマーベースのモデルを使用する。
このモデルは、97.87%の7クラス精度と0.9682 F1スコアで高い性能を達成している。
論文 参考訳(メタデータ) (2025-05-09T15:10:57Z) - Enhancing Sentiment Analysis through Multimodal Fusion: A BERT-DINOv2 Approach [2.859032340781147]
本稿では,感情をより包括的に理解するために,テキストと画像データを統合した新しいマルチモーダル感情分析アーキテクチャを提案する。
3つのデータセット、Memotion 7kデータセット、MVSAシングルデータセット、MVSAマルチデータセットの実験は、提案されたマルチモーダルアーキテクチャの生存可能性と実用性を示している。
論文 参考訳(メタデータ) (2025-03-11T00:53:45Z) - Multimodal Sentiment Analysis Based on BERT and ResNet [0.0]
BERTとResNetを組み合わせたマルチモーダル感情分析フレームワークが提案されている。
BERTは自然言語処理において強いテキスト表現能力を示しており、ResNetはコンピュータビジョンの分野で優れた画像特徴抽出性能を有している。
パブリックデータセットMAVA-singleの実験結果によると、BERTやResNetのみを使用するシングルモーダルモデルと比較して、提案されたマルチモーダルモデルは精度とF1スコアを改善し、74.5%の精度に達した。
論文 参考訳(メタデータ) (2024-12-04T15:55:20Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge [73.76722241704488]
大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。
我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-01-12T16:08:07Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - TransModality: An End2End Fusion Method with Transformer for Multimodal
Sentiment Analysis [42.6733747726081]
マルチモーダル感情分析の課題に対処する新たな融合手法であるTransModalityを提案する。
我々は、CMU-MOSI、MELD、IEMOCAPという複数のマルチモーダルデータセット上でモデルを検証した。
論文 参考訳(メタデータ) (2020-09-07T06:11:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。