論文の概要: GCM-Net: Graph-enhanced Cross-Modal Infusion with a Metaheuristic-Driven Network for Video Sentiment and Emotion Analysis
- arxiv url: http://arxiv.org/abs/2410.12828v1
- Date: Wed, 02 Oct 2024 10:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-20 09:41:07.242662
- Title: GCM-Net: Graph-enhanced Cross-Modal Infusion with a Metaheuristic-Driven Network for Video Sentiment and Emotion Analysis
- Title(参考訳): GCM-Net:ビデオ知覚と感情分析のためのメタヒューリスティック駆動ネットワークを用いたグラフ強化クロスモーダル注入
- Authors: Prasad Chaudhari, Aman Kumar, Chandravardhan Singh Raghaw, Mohammad Zia Ur Rehman, Nagendra Kumar,
- Abstract要約: 本稿では,発話からのマルチモーダルな文脈情報を活用し,メタヒューリスティックなアルゴリズムを用いて発話レベルの感情と感情予測を学習する新しい枠組みを提案する。
提案手法の有効性を示すため,我々は3つの顕著なマルチモーダル・ベンチマーク・データセットについて広範な評価を行った。
- 参考スコア(独自算出の注目度): 2.012311338995539
- License:
- Abstract: Sentiment analysis and emotion recognition in videos are challenging tasks, given the diversity and complexity of the information conveyed in different modalities. Developing a highly competent framework that effectively addresses the distinct characteristics across various modalities is a primary concern in this domain. Previous studies on combined multimodal sentiment and emotion analysis often overlooked effective fusion for modality integration, intermodal contextual congruity, optimizing concatenated feature spaces, leading to suboptimal architecture. This paper presents a novel framework that leverages the multi-modal contextual information from utterances and applies metaheuristic algorithms to learn the contributing features for utterance-level sentiment and emotion prediction. Our Graph-enhanced Cross-Modal Infusion with a Metaheuristic-Driven Network (GCM-Net) integrates graph sampling and aggregation to recalibrate the modality features for video sentiment and emotion prediction. GCM-Net includes a cross-modal attention module determining intermodal interactions and utterance relevance. A harmonic optimization module employing a metaheuristic algorithm combines attended features, allowing for handling both single and multi-utterance inputs. To show the effectiveness of our approach, we have conducted extensive evaluations on three prominent multi-modal benchmark datasets, CMU MOSI, CMU MOSEI, and IEMOCAP. The experimental results demonstrate the efficacy of our proposed approach, showcasing accuracies of 91.56% and 86.95% for sentiment analysis on MOSI and MOSEI datasets. We have performed emotion analysis for the IEMOCAP dataset procuring an accuracy of 85.66% which signifies substantial performance enhancements over existing methods.
- Abstract(参考訳): 異なるモダリティで伝達される情報の多様性と複雑さを考えると、ビデオにおける感情分析と感情認識は難しい作業である。
様々なモダリティにまたがる特徴を効果的に解決する高度に能力のあるフレームワークを開発することが、この領域の主要な関心事である。
従来、マルチモーダルな感情と感情分析を組み合わせた研究は、しばしばモダリティ統合、モーダルな文脈の相似性、連結した特徴空間の最適化、最適下地アーキテクチャへの効果的な融合を見落としていた。
本稿では,発話からのマルチモーダルな文脈情報を活用し,メタヒューリスティックなアルゴリズムを適用し,発話レベルの感情と感情予測に寄与する特徴を学習する新しい枠組みを提案する。
メタヒューリスティック・ドリブン・ネットワーク(GCM-Net)を用いたグラフ強化クロスモーダル・インフュージョンは,ビデオの感情と感情予測のモダリティ特性を再検討するために,グラフサンプリングとアグリゲーションを統合している。
GCM-Netは、モーダル間相互作用と発話関連性を決定するモーダル間アテンションモジュールを含む。
メタヒューリスティックアルゴリズムを用いた高調波最適化モジュールは、出席した特徴を組み合わせ、単一音声と複数音声の両方の入力を処理できる。
提案手法の有効性を示すため,CMU MOSI,CMU MOSEI,IEMOCAPの3つの重要なマルチモーダル・ベンチマーク・データセットについて広範な評価を行った。
実験の結果,MOSIおよびMOSEIデータセットに対する感情分析の精度は91.56%,86.95%であった。
我々は,IEMOCAPデータセットの感情分析を行い,85.66%の精度を得た。
関連論文リスト
- Towards a Robust Framework for Multimodal Hate Detection: A Study on Video vs. Image-based Content [7.5253808885104325]
ソーシャルメディアプラットフォームは、さまざまなモダリティにまたがるヘイトフルコンテンツの伝播を可能にする。
近年のアプローチでは、個々のモダリティを扱うことは約束されているが、異なるモダリティの組み合わせにおけるそれらの有効性は未解明のままである。
本稿では,マルチモーダルヘイト検出における融合に基づくアプローチの体系的分析を行い,ビデオコンテンツと画像コンテンツ間のパフォーマンスに着目した。
論文 参考訳(メタデータ) (2025-02-11T00:07:40Z) - Dynamic Multimodal Sentiment Analysis: Leveraging Cross-Modal Attention for Enabled Classification [0.0]
マルチモーダル感情分析モデルは、感情分類を強化するために、テキスト、音声、視覚データを統合します。
研究は,後期核融合,早期核融合,多面的注意の3つの特徴核融合戦略を評価する。
プロセスの初期にモダリティを統合することで感情分類が促進され、注意機構が現在のフレームワークに限られた影響を与える可能性があることが示唆されている。
論文 参考訳(メタデータ) (2025-01-14T12:54:19Z) - Effective Context Modeling Framework for Emotion Recognition in Conversations [2.7175580940471913]
会話における感情認識(英語: Emotion Recognition in Conversations, ERC)は、会話中の各発話における話者による感情のより深い理解を促進する。
最近のグラフニューラルネットワーク(GNN)は、データ関係をキャプチャする上で、その強みを実証している。
本稿では,会話中の文脈情報をキャプチャする新しいGNNベースのフレームワークであるConxGNNを提案する。
論文 参考訳(メタデータ) (2024-12-21T02:22:06Z) - Multimodal Sentiment Analysis Based on BERT and ResNet [0.0]
BERTとResNetを組み合わせたマルチモーダル感情分析フレームワークが提案されている。
BERTは自然言語処理において強いテキスト表現能力を示しており、ResNetはコンピュータビジョンの分野で優れた画像特徴抽出性能を有している。
パブリックデータセットMAVA-singleの実験結果によると、BERTやResNetのみを使用するシングルモーダルモデルと比較して、提案されたマルチモーダルモデルは精度とF1スコアを改善し、74.5%の精度に達した。
論文 参考訳(メタデータ) (2024-12-04T15:55:20Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。