論文の概要: Sentiment Word Aware Multimodal Refinement for Multimodal Sentiment
Analysis with ASR Errors
- arxiv url: http://arxiv.org/abs/2203.00257v1
- Date: Tue, 1 Mar 2022 06:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 14:25:38.166398
- Title: Sentiment Word Aware Multimodal Refinement for Multimodal Sentiment
Analysis with ASR Errors
- Title(参考訳): ASRエラーを用いたマルチモーダル感性分析のための感性単語認識
- Authors: Yang Wu, Yanyan Zhao, Hao Yang, Song Chen, Bing Qin, Xiaohuan Cao,
Wenting Zhao
- Abstract要約: マルチモーダル感情分析は注目を集め、多くのモデルが提案されている。
しかし,現状のモデルの性能は実世界での展開によって急激に低下する。
主な理由は,実世界のアプリケーションが自動音声認識(ASR)モデルによってのみテキスト出力にアクセスできるためである。
誤感情語を動的に洗練できる感傷語認識多モーダル改善モデル(SWRM)を提案する。
- 参考スコア(独自算出の注目度): 29.182545479819716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentiment analysis has attracted increasing attention and lots of
models have been proposed. However, the performance of the state-of-the-art
models decreases sharply when they are deployed in the real world. We find that
the main reason is that real-world applications can only access the text
outputs by the automatic speech recognition (ASR) models, which may be with
errors because of the limitation of model capacity. Through further analysis of
the ASR outputs, we find that in some cases the sentiment words, the key
sentiment elements in the textual modality, are recognized as other words,
which makes the sentiment of the text change and hurts the performance of
multimodal sentiment models directly. To address this problem, we propose the
sentiment word aware multimodal refinement model (SWRM), which can dynamically
refine the erroneous sentiment words by leveraging multimodal sentiment clues.
Specifically, we first use the sentiment word position detection module to
obtain the most possible position of the sentiment word in the text and then
utilize the multimodal sentiment word refinement module to dynamically refine
the sentiment word embeddings. The refined embeddings are taken as the textual
inputs of the multimodal feature fusion module to predict the sentiment labels.
We conduct extensive experiments on the real-world datasets including
MOSI-Speechbrain, MOSI-IBM, and MOSI-iFlytek and the results demonstrate the
effectiveness of our model, which surpasses the current state-of-the-art models
on three datasets. Furthermore, our approach can be adapted for other
multimodal feature fusion models easily. Data and code are available at
https://github.com/albertwy/SWRM.
- Abstract(参考訳): マルチモーダル感情分析は注目を集め、多くのモデルが提案されている。
しかし,現状のモデルの性能は実世界での展開によって急激に低下する。
主な理由は,実世界のアプリケーションが自動音声認識(ASR)モデルによるテキスト出力にのみアクセス可能であることにある。
ASR出力のさらなる分析により、テキストモダリティにおける重要な感情要素である感情語が他の単語として認識され、テキストの感情が変化し、マルチモーダル感情モデルの性能が直接的に損なわれることが分かる。
そこで本研究では,マルチモーダル感情の手がかりを活用し,誤った感情語を動的に洗練することができる感情語認識マルチモーダルリファインメントモデル(swrm)を提案する。
具体的には、まず感情単語の位置検出モジュールを用いて、テキスト中の感情単語の最も可能な位置を抽出し、マルチモーダル感情単語洗練モジュールを用いて感情単語の埋め込みを動的に洗練する。
洗練された埋め込みは、感情ラベルを予測するためにマルチモーダル特徴融合モジュールのテキスト入力として取られる。
我々は,MOSI-Speechbrain,MOSI-IBM,MOSI-iFlytekなどの実世界のデータセットに関する広範な実験を行い,本モデルの有効性を示した。
さらに,本手法は他のマルチモーダル機能融合モデルにも容易に適用できる。
データとコードはhttps://github.com/albertwy/SWRM.comで入手できる。
関連論文リスト
- Enhancing Multimodal Sentiment Analysis for Missing Modality through Self-Distillation and Unified Modality Cross-Attention [45.31956918333587]
マルチモーダルな感情分析では、テキストデータの収集はビデオやオーディオよりも難しいことが多い。
我々は,テキストのモダリティがなくても,マルチモーダルな感情情報を統合する頑健なモデルを開発した。
論文 参考訳(メタデータ) (2024-10-19T07:59:41Z) - PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - Textualized and Feature-based Models for Compound Multimodal Emotion Recognition in the Wild [45.29814349246784]
マルチモーダルな大言語モデル(LLM)は、異なる非テクストのモダリティからテキストに変換される可能性のある明示的な非言語的手がかりに依存している。
本稿では,ビデオにおける複合マルチモーダルERのテキストと特徴に基づくアプローチの可能性について比較する。
論文 参考訳(メタデータ) (2024-07-17T18:01:25Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - TextMI: Textualize Multimodal Information for Integrating Non-verbal
Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。
我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文 参考訳(メタデータ) (2023-03-27T17:54:32Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Multilogue-Net: A Context Aware RNN for Multi-modal Emotion Detection
and Sentiment Analysis in Conversation [2.588973722689844]
マルチモーダル感情検出および知覚分析は特に有用である。
マルチモーダル機能を扱う現在のシステムは、会話のコンテキストを活用・捉えない。
上述した欠点をすべて考慮し,エンドツーエンドのRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-19T16:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。