論文の概要: MACSA: A Multimodal Aspect-Category Sentiment Analysis Dataset with
Multimodal Fine-grained Aligned Annotations
- arxiv url: http://arxiv.org/abs/2206.13969v1
- Date: Tue, 28 Jun 2022 12:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 13:00:16.376362
- Title: MACSA: A Multimodal Aspect-Category Sentiment Analysis Dataset with
Multimodal Fine-grained Aligned Annotations
- Title(参考訳): MACSA:マルチモーダル微粒アノテーションを用いたマルチモーダルアスペクトカテゴリ感性分析データセット
- Authors: Hao Yang, Yanyan Zhao, Jianwei Liu, Yang Wu and Bing Qin
- Abstract要約: 我々は,21K以上のテキストイメージペアを含む新しいデータセットであるMultimodal Aspect-Category Sentiment Analysis (MACSA)を提案する。
本稿では, マルチモーダルACSAタスクと多モーダルグラフベースアライメントモデル (MGAM) を提案する。
- 参考スコア(独自算出の注目度): 31.972103262426877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal fine-grained sentiment analysis has recently attracted increasing
attention due to its broad applications. However, the existing multimodal
fine-grained sentiment datasets most focus on annotating the fine-grained
elements in text but ignore those in images, which leads to the fine-grained
elements in visual content not receiving the full attention they deserve. In
this paper, we propose a new dataset, the Multimodal Aspect-Category Sentiment
Analysis (MACSA) dataset, which contains more than 21K text-image pairs. The
dataset provides fine-grained annotations for both textual and visual content
and firstly uses the aspect category as the pivot to align the fine-grained
elements between the two modalities. Based on our dataset, we propose the
Multimodal ACSA task and a multimodal graph-based aligned model (MGAM), which
adopts a fine-grained cross-modal fusion method. Experimental results show that
our method can facilitate the baseline comparison for future research on this
corpus. We will make the dataset and code publicly available.
- Abstract(参考訳): マルチモーダル微粒な感情分析は、その幅広い応用により近年注目を集めている。
しかし、既存のマルチモーダルな微妙な感情データセットは、テキストの細かい要素に注釈を付けることに重点を置いているが、画像の細かい要素は無視している。
本稿では,21K以上のテキスト・イメージ・ペアを含むMultimodal Aspect-Category Sentiment Analysis (MACSA)データセットを提案する。
データセットは、テキストコンテンツとビジュアルコンテンツの両方にきめ細かいアノテーションを提供し、まずアスペクトカテゴリをピボットとして使用し、2つのモダリティ間のきめ細かい要素を調整します。
本研究のデータセットに基づいて,細粒度クロスモーダル融合手法を応用したマルチモーダルacsaタスクとマルチモーダルグラフベースアライメントモデル(mgam)を提案する。
実験結果から,本手法は今後のコーパスのベースライン比較を容易にすることが示唆された。
データセットとコードを公開します。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - AMPLE: Emotion-Aware Multimodal Fusion Prompt Learning for Fake News Detection [0.1499944454332829]
本稿では,Emotion-textbfAware textbfMultimodal Fusion textbfPrompt textbfLtextbfEarning (textbfAMPLE) フレームワークについて述べる。
このフレームワークは感情分析ツールを利用してテキストから感情要素を抽出する。
次に、マルチヘッドクロスアテンション(MCA)機構と類似性を考慮した融合手法を用いて、マルチモーダルデータを統合する。
論文 参考訳(メタデータ) (2024-10-21T02:19:24Z) - Anno-incomplete Multi-dataset Detection [67.69438032767613]
我々は「不完全なマルチデータセット検出」という新しい問題を提案する。
複数の注釈付きデータセットで全ての対象カテゴリを正確に検出できるエンドツーエンドのマルチタスク学習アーキテクチャを開発した。
論文 参考訳(メタデータ) (2024-08-29T03:58:21Z) - New Benchmark Dataset and Fine-Grained Cross-Modal Fusion Framework for Vietnamese Multimodal Aspect-Category Sentiment Analysis [1.053698976085779]
ホテルドメインのテキストと画像の両方に対して,14,618の微粒なアノテーションと4,876のテキストイメージ対からなるベトナムのマルチモーダルデータセットであるViMACSAを導入する。
そこで本研究では,細粒クロスモーダル・フュージョン・フレームワーク(FCMF, Fine-Grained Cross-Modal Fusion Framework)を提案する。
実験の結果,本フレームワークはViMACSAデータセット上でのSOTAモデルよりも優れており,F1スコアは79.73%であった。
論文 参考訳(メタデータ) (2024-05-01T14:29:03Z) - MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching [65.87255122130188]
画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。
また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。
提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
論文 参考訳(メタデータ) (2024-02-27T06:11:54Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - Transformer-based Multi-Aspect Modeling for Multi-Aspect Multi-Sentiment
Analysis [56.893393134328996]
本稿では,複数の側面間の潜在的な関係を抽出し,文中のすべての側面の感情を同時に検出できるトランスフォーマーベースのマルチアスペクトモデリング手法を提案する。
本手法はBERTやRoBERTaといった強力なベースラインと比較して顕著な改善を実現している。
論文 参考訳(メタデータ) (2020-11-01T11:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。