論文の概要: Multimodal Sentiment Analysis Based on BERT and ResNet
- arxiv url: http://arxiv.org/abs/2412.03625v1
- Date: Wed, 04 Dec 2024 15:55:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:41:32.290072
- Title: Multimodal Sentiment Analysis Based on BERT and ResNet
- Title(参考訳): BERTとResNetに基づくマルチモーダル感性解析
- Authors: JiaLe Ren,
- Abstract要約: BERTとResNetを組み合わせたマルチモーダル感情分析フレームワークが提案されている。
BERTは自然言語処理において強いテキスト表現能力を示しており、ResNetはコンピュータビジョンの分野で優れた画像特徴抽出性能を有している。
パブリックデータセットMAVA-singleの実験結果によると、BERTやResNetのみを使用するシングルモーダルモデルと比較して、提案されたマルチモーダルモデルは精度とF1スコアを改善し、74.5%の精度に達した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: With the rapid development of the Internet and social media, multi-modal data (text and image) is increasingly important in sentiment analysis tasks. However, the existing methods are difficult to effectively fuse text and image features, which limits the accuracy of analysis. To solve this problem, a multimodal sentiment analysis framework combining BERT and ResNet was proposed. BERT has shown strong text representation ability in natural language processing, and ResNet has excellent image feature extraction performance in the field of computer vision. Firstly, BERT is used to extract the text feature vector, and ResNet is used to extract the image feature representation. Then, a variety of feature fusion strategies are explored, and finally the fusion model based on attention mechanism is selected to make full use of the complementary information between text and image. Experimental results on the public dataset MAVA-single show that compared with the single-modal models that only use BERT or ResNet, the proposed multi-modal model improves the accuracy and F1 score, reaching the best accuracy of 74.5%. This study not only provides new ideas and methods for multimodal sentiment analysis, but also demonstrates the application potential of BERT and ResNet in cross-domain fusion. In the future, more advanced feature fusion techniques and optimization strategies will be explored to further improve the accuracy and generalization ability of multimodal sentiment analysis.
- Abstract(参考訳): インターネットやソーシャルメディアの急速な発展に伴い、マルチモーダルデータ(テキストと画像)は感情分析タスクにおいてますます重要になっている。
しかし,既存の手法ではテキストや画像の特徴を効果的に融合することは困難であり,解析の精度が制限される。
そこで,BERTとResNetを組み合わせたマルチモーダル感情分析フレームワークを提案する。
BERTは自然言語処理において強いテキスト表現能力を示しており、ResNetはコンピュータビジョンの分野で優れた画像特徴抽出性能を有している。
まず、BERTはテキスト特徴ベクトルを抽出し、ResNetは画像特徴表現を抽出する。
そして、様々な特徴融合戦略を探求し、最後に注意機構に基づく融合モデルを選択し、テキストと画像の相補的な情報をフル活用する。
パブリックデータセットMAVA-singleの実験結果によると、BERTやResNetのみを使用するシングルモーダルモデルと比較して、提案されたマルチモーダルモデルは精度とF1スコアを改善し、74.5%の精度に達した。
本研究は,マルチモーダル感情分析のための新しいアイデアと手法を提供するだけでなく,BERTとResNetのドメイン間融合への応用可能性も示す。
将来的には、マルチモーダル感情分析の精度と一般化能力をさらに向上するために、より高度な機能融合技術と最適化戦略を検討する。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - GCM-Net: Graph-enhanced Cross-Modal Infusion with a Metaheuristic-Driven Network for Video Sentiment and Emotion Analysis [2.012311338995539]
本稿では,発話からのマルチモーダルな文脈情報を活用し,メタヒューリスティックなアルゴリズムを用いて発話レベルの感情と感情予測を学習する新しい枠組みを提案する。
提案手法の有効性を示すため,我々は3つの顕著なマルチモーダル・ベンチマーク・データセットについて広範な評価を行った。
論文 参考訳(メタデータ) (2024-10-02T10:07:48Z) - FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - A Multimodal Approach for Advanced Pest Detection and Classification [0.9003384937161055]
本稿では,農業害虫検出のための多モード深層学習フレームワークを提案する。
小型BERTの自然言語処理とR-CNNとResNet-18の画像処理を組み合わせる。
論文 参考訳(メタデータ) (2023-12-18T05:54:20Z) - Iterative Adversarial Attack on Image-guided Story Ending Generation [37.42908817585858]
マルチモーダル学習は、画像やテキストなどの様々なソースからの情報を統合できるモデルを開発することを含む。
最近のIgSEGモデルのバックボーンであるディープニューラルネットワークは、敵のサンプルに対して脆弱である。
画像とテキストのモダリティ攻撃を融合させる反復的逆攻撃法(Iterative- attack)を提案する。
論文 参考訳(メタデータ) (2023-05-16T06:19:03Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Holistic Visual-Textual Sentiment Analysis with Prior Models [64.48229009396186]
本稿では,頑健な視覚・テキスト感情分析を実現するための総合的手法を提案する。
提案手法は,(1)感情分析のためのデータから特徴を直接学習する視覚テキストブランチ,(2)選択された意味的特徴を抽出する事前学習された「専門家」エンコーダを備えた視覚専門家ブランチ,(3)暗黙的に視覚テキスト対応をモデル化するCLIPブランチ,(4)多モード特徴を融合して感情予測を行うBERTに基づくマルチモーダル特徴融合ネットワークの4つの部分から構成される。
論文 参考訳(メタデータ) (2022-11-23T14:40:51Z) - FiLMing Multimodal Sarcasm Detection with Attention [0.7340017786387767]
サルカスムの検出は、意図された意味がその表面的な意味によって示されるものと異なる自然言語表現を特定する。
本稿では,入力テキストと画像属性のコンテキスト不整合を組み込むために,RoBERTaモデルとコアテンション層を用いた新しいアーキテクチャを提案する。
提案手法は,Twitterのマルチモーダル検出データセットの6.14%のF1スコアにおいて,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T06:33:29Z) - RpBERT: A Text-image Relation Propagation-based BERT Model for
Multimodal NER [4.510210055307459]
マルチモーダルなエンティティ認識(MNER)は、ツイート中のNERの精度を向上させるために画像を利用している。
マルチモーダルBERTモデルにテキスト-画像関係の伝搬法を導入する。
MNERデータセットをトレーニングするためのマルチタスクアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-05T02:45:30Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。