論文の概要: A Novel Context-Aware Multimodal Framework for Persian Sentiment
Analysis
- arxiv url: http://arxiv.org/abs/2103.02636v1
- Date: Wed, 3 Mar 2021 19:09:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-07 22:50:26.950340
- Title: A Novel Context-Aware Multimodal Framework for Persian Sentiment
Analysis
- Title(参考訳): ペルシャ感情分析のための新しいコンテキスト対応マルチモーダルフレームワーク
- Authors: Kia Dashtipour, Mandar Gogate, Erik Cambria, Amir Hussain
- Abstract要約: まず,800以上の発話からなるペルシャのマルチモーダルデータセットについて述べる。
文脈対応型マルチモーダル感情分析フレームワークを提案する。
我々は,感情的クロスモーダル情報を統合するために,意思決定レベル(後期)と機能レベル(早期)の融合手法の両方を用いる。
- 参考スコア(独自算出の注目度): 19.783517380422854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most recent works on sentiment analysis have exploited the text modality.
However, millions of hours of video recordings posted on social media platforms
everyday hold vital unstructured information that can be exploited to more
effectively gauge public perception. Multimodal sentiment analysis offers an
innovative solution to computationally understand and harvest sentiments from
videos by contextually exploiting audio, visual and textual cues. In this
paper, we, firstly, present a first of its kind Persian multimodal dataset
comprising more than 800 utterances, as a benchmark resource for researchers to
evaluate multimodal sentiment analysis approaches in Persian language.
Secondly, we present a novel context-aware multimodal sentiment analysis
framework, that simultaneously exploits acoustic, visual and textual cues to
more accurately determine the expressed sentiment. We employ both
decision-level (late) and feature-level (early) fusion methods to integrate
affective cross-modal information. Experimental results demonstrate that the
contextual integration of multimodal features such as textual, acoustic and
visual features deliver better performance (91.39%) compared to unimodal
features (89.24%).
- Abstract(参考訳): 感情分析に関する最近の研究は、テキストモダリティを活用している。
しかし、ソーシャルメディアプラットフォームに毎日投稿される何百万時間というビデオ録画は、より効果的に大衆の認識を計測するために活用できる重要な非構造化情報を持っている。
マルチモーダル感情分析(Multimodal sentiment analysis)は、音声、視覚、テキストの手がかりを文脈的に活用することで、ビデオから感情を計算的に理解し、収集する革新的なソリューションを提供する。
本稿では,まず,800以上の発話からなるペルシャ語マルチモーダルデータセットを,研究者がペルシャ語におけるマルチモーダル感情分析アプローチを評価するためのベンチマークリソースとして提示する。
第二に,音響的,視覚的,テキスト的手がかりを同時に活用し,表現された感情をより正確に決定する,新しい文脈認識型マルチモーダル感情分析フレームワークを提案する。
我々は,感情的クロスモーダル情報を統合するために,意思決定レベル(後期)と機能レベル(早期)の融合手法の両方を用いる。
実験の結果、テキスト、音響、視覚などのマルチモーダル特徴の文脈的統合は、ユニモーダル特徴(89.24%)よりも優れた性能(91.39%)をもたらすことが示された。
関連論文リスト
- PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - Contrastive Learning-based Multi Modal Architecture for Emoticon Prediction by Employing Image-Text Pairs [13.922091192207718]
本研究の目的は,文,視覚,エモティコン間の関係を分析することである。
我々は,新しいコントラスト学習に基づくマルチモーダルアーキテクチャを提案する。
提案モデルの精度は91%,MCCスコアは90%,エモティコンは90%であった。
論文 参考訳(メタデータ) (2024-08-05T15:45:59Z) - Large Language Models Meet Text-Centric Multimodal Sentiment Analysis: A Survey [66.166184609616]
ChatGPTは、テキスト中心のマルチモーダルタスクに大規模言語モデル(LLM)を適用する大きな可能性を開く。
既存のLLMがテキスト中心のマルチモーダル感情分析タスクにどのように適応できるかは、まだ不明である。
論文 参考訳(メタデータ) (2024-06-12T10:36:27Z) - WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge [73.76722241704488]
大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。
我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-01-12T16:08:07Z) - Holistic Visual-Textual Sentiment Analysis with Prior Models [64.48229009396186]
本稿では,頑健な視覚・テキスト感情分析を実現するための総合的手法を提案する。
提案手法は,(1)感情分析のためのデータから特徴を直接学習する視覚テキストブランチ,(2)選択された意味的特徴を抽出する事前学習された「専門家」エンコーダを備えた視覚専門家ブランチ,(3)暗黙的に視覚テキスト対応をモデル化するCLIPブランチ,(4)多モード特徴を融合して感情予測を行うBERTに基づくマルチモーダル特徴融合ネットワークの4つの部分から構成される。
論文 参考訳(メタデータ) (2022-11-23T14:40:51Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。
我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。
本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - Video Sentiment Analysis with Bimodal Information-augmented Multi-Head
Attention [7.997124140597719]
本研究では,複数のモダリティの時系列データを含むビデオの感情分析に注目する。
重要な問題は、これらの異種データをどのように融合するかです。
バイモーダル相互作用に基づいて、より重要なバイモーダル特徴はより大きな重みが割り当てられる。
論文 参考訳(メタデータ) (2021-03-03T12:30:11Z) - An AutoML-based Approach to Multimodal Image Sentiment Analysis [1.0499611180329804]
本稿では,テキストと画像の感情分析を,automlに基づく最終的な融合分類に組み合わせる手法を提案する。
提案手法は95.19%の精度でB-T4SAデータセットの最先端性能を達成した。
論文 参考訳(メタデータ) (2021-02-16T11:28:50Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。