論文の概要: Leveraging Textual-Cues for Enhancing Multimodal Sentiment Analysis by Object Recognition
- arxiv url: http://arxiv.org/abs/2602.00360v1
- Date: Fri, 30 Jan 2026 22:17:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.135249
- Title: Leveraging Textual-Cues for Enhancing Multimodal Sentiment Analysis by Object Recognition
- Title(参考訳): オブジェクト認識によるマルチモーダル感性分析の強化のためのテキストキューの活用
- Authors: Sumana Biswas, Karen Young, Josephine Griffith,
- Abstract要約: マルチモーダル感情分析は画像データとテキストデータの両方を含む。
このアプローチの一部は、オブジェクト認識手法に基づいた、新しいマルチモーダル知覚分析のためのテクスチュアルキュー(TEMSA)を導入している。
- 参考スコア(独自算出の注目度): 0.45880283710344055
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Multimodal sentiment analysis, which includes both image and text data, presents several challenges due to the dissimilarities in the modalities of text and image, the ambiguity of sentiment, and the complexities of contextual meaning. In this work, we experiment with finding the sentiments of image and text data, individually and in combination, on two datasets. Part of the approach introduces the novel `Textual-Cues for Enhancing Multimodal Sentiment Analysis' (TEMSA) based on object recognition methods to address the difficulties in multimodal sentiment analysis. Specifically, we extract the names of all objects detected in an image and combine them with associated text; we call this combination of text and image data TEMS. Our results demonstrate that only TEMS improves the results when considering all the object names for the overall sentiment of multimodal data compared to individual analysis. This research contributes to advancing multimodal sentiment analysis and offers insights into the efficacy of TEMSA in combining image and text data for multimodal sentiment analysis.
- Abstract(参考訳): 画像データとテキストデータの両方を含むマルチモーダル感情分析は、テキストと画像のモダリティの相違、感情のあいまいさ、文脈意味の複雑さによるいくつかの課題を提示する。
本研究では,2つのデータセット上で,画像とテキストデータの感情を個別に,組み合わせて検索する実験を行った。
このアプローチの一部は、マルチモーダル感情分析の難しさに対処するオブジェクト認識法に基づく、"Textual-Cues for Enhancing Multimodal Sentiment Analysis (TEMSA)"という小説を紹介している。
具体的には、画像から検出された全てのオブジェクトの名前を取り出し、関連するテキストと組み合わせ、このテキストと画像データTEMSの組み合わせを呼ぶ。
その結果, 個人分析と比較して, マルチモーダルデータ全体の感情に対するすべてのオブジェクト名を考えると, TEMSのみが結果を改善することがわかった。
本研究は、マルチモーダル感情分析の進展に寄与し、マルチモーダル感情分析のための画像とテキストデータの組み合わせにおけるTEMSAの有効性についての洞察を提供する。
関連論文リスト
- Enhancing Sentiment Analysis through Multimodal Fusion: A BERT-DINOv2 Approach [2.859032340781147]
本稿では,感情をより包括的に理解するために,テキストと画像データを統合した新しいマルチモーダル感情分析アーキテクチャを提案する。
3つのデータセット、Memotion 7kデータセット、MVSAシングルデータセット、MVSAマルチデータセットの実験は、提案されたマルチモーダルアーキテクチャの生存可能性と実用性を示している。
論文 参考訳(メタデータ) (2025-03-11T00:53:45Z) - Large Language Models Meet Text-Centric Multimodal Sentiment Analysis: A Survey [66.166184609616]
ChatGPTは、テキスト中心のマルチモーダルタスクに大規模言語モデル(LLM)を適用する大きな可能性を開く。
既存のLLMがテキスト中心のマルチモーダル感情分析タスクにどのように適応できるかは、まだ不明である。
論文 参考訳(メタデータ) (2024-06-12T10:36:27Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - mTREE: Multi-Level Text-Guided Representation End-to-End Learning for Whole Slide Image Analysis [16.472295458683696]
マルチモーダル学習は視覚とテキストのデータを統合するが、その病理像やテキスト解析への応用は依然として困難である。
マルチレベルテキストガイド表現のエンド・ツー・エンド・ラーニング(mTREE)を導入する。
この新しいテキスト誘導アプローチは、テキスト病理情報からの情報を活用することで、WSI(Whole Slide Images)を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-28T04:47:44Z) - WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge [73.76722241704488]
大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。
我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-01-12T16:08:07Z) - An AutoML-based Approach to Multimodal Image Sentiment Analysis [1.0499611180329804]
本稿では,テキストと画像の感情分析を,automlに基づく最終的な融合分類に組み合わせる手法を提案する。
提案手法は95.19%の精度でB-T4SAデータセットの最先端性能を達成した。
論文 参考訳(メタデータ) (2021-02-16T11:28:50Z) - Transformer-based Multi-Aspect Modeling for Multi-Aspect Multi-Sentiment
Analysis [56.893393134328996]
本稿では,複数の側面間の潜在的な関係を抽出し,文中のすべての側面の感情を同時に検出できるトランスフォーマーベースのマルチアスペクトモデリング手法を提案する。
本手法はBERTやRoBERTaといった強力なベースラインと比較して顕著な改善を実現している。
論文 参考訳(メタデータ) (2020-11-01T11:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。