論文の概要: Multimodal Sentiment Analysis on CMU-MOSEI Dataset using Transformer-based Models
- arxiv url: http://arxiv.org/abs/2505.06110v1
- Date: Fri, 09 May 2025 15:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.305963
- Title: Multimodal Sentiment Analysis on CMU-MOSEI Dataset using Transformer-based Models
- Title(参考訳): 変圧器モデルを用いたCMU-MOSEIデータセットのマルチモーダル感度解析
- Authors: Jugal Gajjar, Kaustik Ranaware,
- Abstract要約: 本研究は,CMU-MOSEIデータセットを用いたマルチモーダル感情分析を行う。
BERTをベースとしたエンコーダを各モダリティに使用して,分類前に抽出した埋め込みを強化する。
このモデルは、97.87%の7クラス精度と0.9682 F1スコアで高い性能を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This project performs multimodal sentiment analysis using the CMU-MOSEI dataset, using transformer-based models with early fusion to integrate text, audio, and visual modalities. We employ BERT-based encoders for each modality, extracting embeddings that are concatenated before classification. The model achieves strong performance, with 97.87\% 7-class accuracy and a 0.9682 F1-score on the test set, demonstrating the effectiveness of early fusion in capturing cross-modal interactions. The training utilized Adam optimization (lr=1e-4), dropout (0.3), and early stopping to ensure generalization and robustness. Results highlight the superiority of transformer architectures in modeling multimodal sentiment, with a low MAE (0.1060) indicating precise sentiment intensity prediction. Future work may compare fusion strategies or enhance interpretability. This approach utilizes multimodal learning by effectively combining linguistic, acoustic, and visual cues for sentiment analysis.
- Abstract(参考訳): 本研究は,CMU-MOSEIデータセットを用いたマルチモーダル感情分析を行い,テキスト,音声,視覚的モダリティを早期融合したトランスフォーマーモデルを用いた。
BERTをベースとしたエンコーダを各モダリティに使用し、分類前に連結された埋め込みを抽出する。
このモデルは、97.87\% 7クラスの精度とテストセット上の0.9682 F1スコアで高い性能を達成し、クロスモーダル相互作用をキャプチャする初期の融合の有効性を実証した。
訓練ではアダム最適化(lr=1e-4)、ドロップアウト(0.3)、早期停止を利用して一般化と堅牢性を確保した。
その結果、マルチモーダル感情のモデル化におけるトランスフォーマーアーキテクチャの優位性が強調され、MAE (0.1060) は精度の高い感情強度予測を示す。
今後の研究は融合戦略を比較したり、解釈可能性を高めることができる。
このアプローチは、感情分析に言語、音響、視覚の手がかりを効果的に組み合わせ、マルチモーダル学習を利用する。
関連論文リスト
- TWSSenti: A Novel Hybrid Framework for Topic-Wise Sentiment Analysis on Social Media Using Transformer Models [0.0]
本研究では,感情分類の精度と頑健性を改善するために,トランスフォーマーモデルを組み合わせたハイブリッドフレームワークについて検討する。
このフレームワークは、ノイズの多いデータ、コンテキストのあいまいさ、さまざまなデータセット間の一般化といった課題に対処する。
この研究は、ソーシャルメディアのモニタリング、顧客感情分析、世論の追跡など、現実世界のタスクへの適用性を強調している。
論文 参考訳(メタデータ) (2025-04-14T05:44:11Z) - Dynamic Multimodal Sentiment Analysis: Leveraging Cross-Modal Attention for Enabled Classification [0.0]
マルチモーダル感情分析モデルは、感情分類を強化するために、テキスト、音声、視覚データを統合します。
研究は,後期核融合,早期核融合,多面的注意の3つの特徴核融合戦略を評価する。
プロセスの初期にモダリティを統合することで感情分類が促進され、注意機構が現在のフレームワークに限られた影響を与える可能性があることが示唆されている。
論文 参考訳(メタデータ) (2025-01-14T12:54:19Z) - Comprehensive Multimodal Deep Learning Survival Prediction Enabled by a Transformer Architecture: A Multicenter Study in Glioblastoma [4.578027879885667]
本研究は,変圧器を用いた深層学習モデルにMR画像,臨床および分子病理学的データを統合することにより,グリオーマの生存率予測を改善することを目的とする。
このモデルは、自己教師付き学習技術を用いて、高次元MRI入力を効果的に符号化し、クロスアテンションを用いた非画像データと統合する。
論文 参考訳(メタデータ) (2024-05-21T17:44:48Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。
我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。
我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文 参考訳(メタデータ) (2022-09-30T15:01:35Z) - Does a Technique for Building Multimodal Representation Matter? --
Comparative Analysis [0.0]
マルチモーダル表現を構築するためのテクニックの選択は、可能な限り高いモデルの性能を得るために不可欠であることを示す。
Amazon Reviews、MovieLens25M、MovieLens1Mの3つのデータセットで実験が行われる。
論文 参考訳(メタデータ) (2022-06-09T21:30:10Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。