Fugu-MT 論文翻訳(概要): A Novel Context-Aware Multimodal Framework for Persian Sentiment Analysis

論文の概要: A Novel Context-Aware Multimodal Framework for Persian Sentiment Analysis

arxiv url: http://arxiv.org/abs/2103.02636v1
Date: Wed, 3 Mar 2021 19:09:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-07 22:50:26.950340
Title: A Novel Context-Aware Multimodal Framework for Persian Sentiment Analysis
Title（参考訳）: ペルシャ感情分析のための新しいコンテキスト対応マルチモーダルフレームワーク
Authors: Kia Dashtipour, Mandar Gogate, Erik Cambria, Amir Hussain
Abstract要約: まず,800以上の発話からなるペルシャのマルチモーダルデータセットについて述べる。文脈対応型マルチモーダル感情分析フレームワークを提案する。我々は,感情的クロスモーダル情報を統合するために,意思決定レベル(後期)と機能レベル(早期)の融合手法の両方を用いる。
参考スコア（独自算出の注目度）: 19.783517380422854
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Most recent works on sentiment analysis have exploited the text modality. However, millions of hours of video recordings posted on social media platforms everyday hold vital unstructured information that can be exploited to more effectively gauge public perception. Multimodal sentiment analysis offers an innovative solution to computationally understand and harvest sentiments from videos by contextually exploiting audio, visual and textual cues. In this paper, we, firstly, present a first of its kind Persian multimodal dataset comprising more than 800 utterances, as a benchmark resource for researchers to evaluate multimodal sentiment analysis approaches in Persian language. Secondly, we present a novel context-aware multimodal sentiment analysis framework, that simultaneously exploits acoustic, visual and textual cues to more accurately determine the expressed sentiment. We employ both decision-level (late) and feature-level (early) fusion methods to integrate affective cross-modal information. Experimental results demonstrate that the contextual integration of multimodal features such as textual, acoustic and visual features deliver better performance (91.39%) compared to unimodal features (89.24%).
Abstract（参考訳）: 感情分析に関する最近の研究は、テキストモダリティを活用している。しかし、ソーシャルメディアプラットフォームに毎日投稿される何百万時間というビデオ録画は、より効果的に大衆の認識を計測するために活用できる重要な非構造化情報を持っている。マルチモーダル感情分析(Multimodal sentiment analysis)は、音声、視覚、テキストの手がかりを文脈的に活用することで、ビデオから感情を計算的に理解し、収集する革新的なソリューションを提供する。本稿では,まず,800以上の発話からなるペルシャ語マルチモーダルデータセットを,研究者がペルシャ語におけるマルチモーダル感情分析アプローチを評価するためのベンチマークリソースとして提示する。第二に,音響的,視覚的,テキスト的手がかりを同時に活用し,表現された感情をより正確に決定する,新しい文脈認識型マルチモーダル感情分析フレームワークを提案する。我々は,感情的クロスモーダル情報を統合するために,意思決定レベル(後期)と機能レベル(早期)の融合手法の両方を用いる。実験の結果、テキスト、音響、視覚などのマルチモーダル特徴の文脈的統合は、ユニモーダル特徴(89.24%)よりも優れた性能(91.39%)をもたらすことが示された。

関連論文リスト

Towards an Automated Multimodal Approach for Video Summarization: Building a Bridge Between Text, Audio and Facial Cue-Based Summarization [8.688428251722911]
本稿では,行動認識型マルチモーダルビデオ要約フレームワークを提案する。テキスト、オーディオ、ビジュアルのキューを統合して、タイムスタンプに沿った要約を生成する。
論文参考訳（メタデータ） (2025-06-30T10:41:33Z)
VidText: Towards Comprehensive Evaluation for Video Text Understanding [54.15328647518558]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文参考訳（メタデータ） (2025-05-28T19:39:35Z)
Multimodal Emotion Recognition and Sentiment Analysis in Multi-Party Conversation Contexts [3.8776851334100644]
本稿では、よく知られたデータセット上でこれらの課題に取り組むためのマルチモーダルアプローチを提案する。本稿では,テキスト用RoBERTa,音声用Wav2Vec2,表情用FacialNet,ビデオ解析用CNN+Transformerアーキテクチャの4つの重要なモダリティ/チャネルを統合するシステムを提案する。
論文参考訳（メタデータ） (2025-03-09T23:14:19Z)
Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文参考訳（メタデータ） (2024-12-12T11:30:41Z)
PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文参考訳（メタデータ） (2024-08-18T13:51:01Z)
Contrastive Learning-based Multi Modal Architecture for Emoticon Prediction by Employing Image-Text Pairs [13.922091192207718]
本研究の目的は,文,視覚,エモティコン間の関係を分析することである。我々は,新しいコントラスト学習に基づくマルチモーダルアーキテクチャを提案する。提案モデルの精度は91%,MCCスコアは90%,エモティコンは90%であった。
論文参考訳（メタデータ） (2024-08-05T15:45:59Z)
Large Language Models Meet Text-Centric Multimodal Sentiment Analysis: A Survey [66.166184609616]
ChatGPTは、テキスト中心のマルチモーダルタスクに大規模言語モデル(LLM)を適用する大きな可能性を開く。既存のLLMがテキスト中心のマルチモーダル感情分析タスクにどのように適応できるかは、まだ不明である。
論文参考訳（メタデータ） (2024-06-12T10:36:27Z)
WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual World Knowledge [73.76722241704488]
大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2024-01-12T16:08:07Z)
Holistic Visual-Textual Sentiment Analysis with Prior Models [64.48229009396186]
本稿では,頑健な視覚・テキスト感情分析を実現するための総合的手法を提案する。提案手法は,(1)感情分析のためのデータから特徴を直接学習する視覚テキストブランチ,(2)選択された意味的特徴を抽出する事前学習された「専門家」エンコーダを備えた視覚専門家ブランチ,(3)暗黙的に視覚テキスト対応をモデル化するCLIPブランチ,(4)多モード特徴を融合して感情予測を行うBERTに基づくマルチモーダル特徴融合ネットワークの4つの部分から構成される。
論文参考訳（メタデータ） (2022-11-23T14:40:51Z)
Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文参考訳（メタデータ） (2022-10-05T13:14:57Z)
Video Sentiment Analysis with Bimodal Information-augmented Multi-Head Attention [7.997124140597719]
本研究では,複数のモダリティの時系列データを含むビデオの感情分析に注目する。重要な問題は、これらの異種データをどのように融合するかです。バイモーダル相互作用に基づいて、より重要なバイモーダル特徴はより大きな重みが割り当てられる。
論文参考訳（メタデータ） (2021-03-03T12:30:11Z)
An AutoML-based Approach to Multimodal Image Sentiment Analysis [1.0499611180329804]
本稿では,テキストと画像の感情分析を,automlに基づく最終的な融合分類に組み合わせる手法を提案する。提案手法は95.19%の精度でB-T4SAデータセットの最先端性能を達成した。
論文参考訳（メタデータ） (2021-02-16T11:28:50Z)
Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文参考訳（メタデータ） (2020-04-10T06:31:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。