論文の概要: Exploring Multimodal Sentiment Analysis via CBAM Attention and
Double-layer BiLSTM Architecture
- arxiv url: http://arxiv.org/abs/2303.14708v1
- Date: Sun, 26 Mar 2023 12:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 18:01:30.249454
- Title: Exploring Multimodal Sentiment Analysis via CBAM Attention and
Double-layer BiLSTM Architecture
- Title(参考訳): CBAM注意と二重層BiLSTMアーキテクチャによるマルチモーダル感性分析の探索
- Authors: Huiru Wang, Xiuhong Li, Zenyu Ren, Dan Yang, chunming Ma
- Abstract要約: 本モデルでは,文中の長距離依存関係を抽出するためにBERT + BiLSTM を用いる。
余分な情報を除去するために、テキスト特徴と画像特徴をスプライシングした後、CNNとCBAMの注意を追加する。
実験結果から,従来のモデルと同様の音響効果が得られた。
- 参考スコア(独自算出の注目度): 3.9850392954445875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Because multimodal data contains more modal information, multimodal sentiment
analysis has become a recent research hotspot. However, redundant information
is easily involved in feature fusion after feature extraction, which has a
certain impact on the feature representation after fusion. Therefore, in this
papaer, we propose a new multimodal sentiment analysis model. In our model, we
use BERT + BiLSTM as new feature extractor to capture the long-distance
dependencies in sentences and consider the position information of input
sequences to obtain richer text features. To remove redundant information and
make the network pay more attention to the correlation between image and text
features, CNN and CBAM attention are added after splicing text features and
picture features, to improve the feature representation ability. On the
MVSA-single dataset and HFM dataset, compared with the baseline model, the ACC
of our model is improved by 1.78% and 1.91%, and the F1 value is enhanced by
3.09% and 2.0%, respectively. The experimental results show that our model
achieves a sound effect, similar to the advanced model.
- Abstract(参考訳): マルチモーダルデータはより多くのモーダル情報を含んでいるため、マルチモーダル感情分析は最近の研究ホットスポットとなっている。
しかし,余剰情報は特徴抽出後の特徴の融合に容易に関与し,融合後の特徴の表現に一定の影響を及ぼす。
そこで本研究では,新たなマルチモーダル感情分析モデルを提案する。
本モデルでは, BERT+BiLSTMを特徴抽出器として, 文中の長距離依存性を抽出し, 入力シーケンスの位置情報を考慮し, よりリッチなテキスト特徴を得る。
冗長な情報を除去し、画像とテキストの特徴の相関にネットワークがより注意を払うために、テキスト特徴と画像特徴をスプライシングした後、cnnとcbamの注意が加えられ、特徴表現能力が向上する。
MVSA-SingleデータセットとHFMデータセットでは,ベースラインモデルと比較して,我々のモデルのACCが1.78%,1.91%向上し,F1値が3.09%,2.0%向上した。
実験の結果,本モデルは先進モデルと同様に音響効果が得られた。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Multiple Areal Feature Aware Transportation Demand Prediction [2.996323123990199]
本稿では,多機能グラフ畳み込みリカレントネットワーク(ST-MFGCRN)を提案する。
提案手法を実世界の2つの交通データセット上で評価する。
論文 参考訳(メタデータ) (2024-08-23T07:51:10Z) - MDF: A Dynamic Fusion Model for Multi-modal Fake News Detection [0.41942958779358674]
フェイクニュース検出のためのMDFと呼ばれる新しい動的融合フレームワークを提案する。
本モデルは,(1)モーダル内不確実性をモデル化するためのマルチヘッドアテンション機構を用いた不確実性モデリングモジュールとしてのUEM,(2)DFNは2つのモーダルの重みを動的に融合させるD-Sエビデンス理論に基づく動的融合モジュールである。
論文 参考訳(メタデータ) (2024-06-28T09:24:52Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - I2SRM: Intra- and Inter-Sample Relationship Modeling for Multimodal
Information Extraction [10.684005956288347]
本稿では,本課題に対するサンプル内およびサンプル間関係モデリング(I2SRM)手法を提案する。
提案手法は,Twitter-2015で77.12%のF1スコア,Twitter-2017で88.40%のF1スコア,MNREで84.12%のF1スコアと競合する結果を得た。
論文 参考訳(メタデータ) (2023-10-10T05:50:25Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Better Feature Integration for Named Entity Recognition [30.676768644145]
両タイプの機能をSynergized-LSTM(Syn-LSTM)に組み込むためのシンプルで堅牢なソリューションを提案する。
その結果、提案モデルが従来のアプローチよりも優れたパフォーマンスを実現し、パラメータを少なくできることが示された。
論文 参考訳(メタデータ) (2021-04-12T09:55:06Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。