論文の概要: Enhancing Sentiment Analysis through Multimodal Fusion: A BERT-DINOv2 Approach
- arxiv url: http://arxiv.org/abs/2503.07943v1
- Date: Tue, 11 Mar 2025 00:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:53.494956
- Title: Enhancing Sentiment Analysis through Multimodal Fusion: A BERT-DINOv2 Approach
- Title(参考訳): マルチモーダル核融合による感度解析の強化:BERT-DINOv2アプローチ
- Authors: Taoxu Zhao, Meisi Li, Kehao Chen, Liye Wang, Xucheng Zhou, Kunal Chaturvedi, Mukesh Prasad, Ali Anaissi, Ali Braytee,
- Abstract要約: 本稿では,感情をより包括的に理解するために,テキストと画像データを統合した新しいマルチモーダル感情分析アーキテクチャを提案する。
3つのデータセット、Memotion 7kデータセット、MVSAシングルデータセット、MVSAマルチデータセットの実験は、提案されたマルチモーダルアーキテクチャの生存可能性と実用性を示している。
- 参考スコア(独自算出の注目度): 2.859032340781147
- License:
- Abstract: Multimodal sentiment analysis enhances conventional sentiment analysis, which traditionally relies solely on text, by incorporating information from different modalities such as images, text, and audio. This paper proposes a novel multimodal sentiment analysis architecture that integrates text and image data to provide a more comprehensive understanding of sentiments. For text feature extraction, we utilize BERT, a natural language processing model. For image feature extraction, we employ DINOv2, a vision-transformer-based model. The textual and visual latent features are integrated using proposed fusion techniques, namely the Basic Fusion Model, Self Attention Fusion Model, and Dual Attention Fusion Model. Experiments on three datasets, Memotion 7k dataset, MVSA single dataset, and MVSA multi dataset, demonstrate the viability and practicality of the proposed multimodal architecture.
- Abstract(参考訳): マルチモーダル感情分析は、画像、テキスト、オーディオなどの様々なモダリティからの情報を統合することで、伝統的にテキストにのみ依存する従来の感情分析を強化する。
本稿では,感情をより包括的に理解するために,テキストと画像データを統合した新しいマルチモーダル感情分析アーキテクチャを提案する。
テキスト特徴抽出には自然言語処理モデルであるBERTを用いる。
画像特徴抽出には視覚変換モデルであるDINOv2を用いる。
テキストおよび視覚的潜在機能は、基本核融合モデル、自己注意核融合モデル、二重核融合モデルといった提案された核融合技術を用いて統合される。
3つのデータセット、Memotion 7kデータセット、MVSAシングルデータセット、MVSAマルチデータセットの実験は、提案されたマルチモーダルアーキテクチャの生存可能性と実用性を示している。
関連論文リスト
- Multimodal Sentiment Analysis Based on BERT and ResNet [0.0]
BERTとResNetを組み合わせたマルチモーダル感情分析フレームワークが提案されている。
BERTは自然言語処理において強いテキスト表現能力を示しており、ResNetはコンピュータビジョンの分野で優れた画像特徴抽出性能を有している。
パブリックデータセットMAVA-singleの実験結果によると、BERTやResNetのみを使用するシングルモーダルモデルと比較して、提案されたマルチモーダルモデルは精度とF1スコアを改善し、74.5%の精度に達した。
論文 参考訳(メタデータ) (2024-12-04T15:55:20Z) - AMPLE: Emotion-Aware Multimodal Fusion Prompt Learning for Fake News Detection [0.1499944454332829]
本稿では,Emotion-textbfAware textbfMultimodal Fusion textbfPrompt textbfLtextbfEarning (textbfAMPLE) フレームワークについて述べる。
このフレームワークは感情分析ツールを利用してテキストから感情要素を抽出する。
次に、マルチヘッドクロスアテンション(MCA)機構と類似性を考慮した融合手法を用いて、マルチモーダルデータを統合する。
論文 参考訳(メタデータ) (2024-10-21T02:19:24Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Holistic Visual-Textual Sentiment Analysis with Prior Models [64.48229009396186]
本稿では,頑健な視覚・テキスト感情分析を実現するための総合的手法を提案する。
提案手法は,(1)感情分析のためのデータから特徴を直接学習する視覚テキストブランチ,(2)選択された意味的特徴を抽出する事前学習された「専門家」エンコーダを備えた視覚専門家ブランチ,(3)暗黙的に視覚テキスト対応をモデル化するCLIPブランチ,(4)多モード特徴を融合して感情予測を行うBERTに基づくマルチモーダル特徴融合ネットワークの4つの部分から構成される。
論文 参考訳(メタデータ) (2022-11-23T14:40:51Z) - Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (2021-12-27T10:00:16Z) - FiLMing Multimodal Sarcasm Detection with Attention [0.7340017786387767]
サルカスムの検出は、意図された意味がその表面的な意味によって示されるものと異なる自然言語表現を特定する。
本稿では,入力テキストと画像属性のコンテキスト不整合を組み込むために,RoBERTaモデルとコアテンション層を用いた新しいアーキテクチャを提案する。
提案手法は,Twitterのマルチモーダル検出データセットの6.14%のF1スコアにおいて,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T06:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。