論文の概要: MACSA: A Multimodal Aspect-Category Sentiment Analysis Dataset with
Multimodal Fine-grained Aligned Annotations
- arxiv url: http://arxiv.org/abs/2206.13969v1
- Date: Tue, 28 Jun 2022 12:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 13:00:16.376362
- Title: MACSA: A Multimodal Aspect-Category Sentiment Analysis Dataset with
Multimodal Fine-grained Aligned Annotations
- Title(参考訳): MACSA:マルチモーダル微粒アノテーションを用いたマルチモーダルアスペクトカテゴリ感性分析データセット
- Authors: Hao Yang, Yanyan Zhao, Jianwei Liu, Yang Wu and Bing Qin
- Abstract要約: 我々は,21K以上のテキストイメージペアを含む新しいデータセットであるMultimodal Aspect-Category Sentiment Analysis (MACSA)を提案する。
本稿では, マルチモーダルACSAタスクと多モーダルグラフベースアライメントモデル (MGAM) を提案する。
- 参考スコア(独自算出の注目度): 31.972103262426877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal fine-grained sentiment analysis has recently attracted increasing
attention due to its broad applications. However, the existing multimodal
fine-grained sentiment datasets most focus on annotating the fine-grained
elements in text but ignore those in images, which leads to the fine-grained
elements in visual content not receiving the full attention they deserve. In
this paper, we propose a new dataset, the Multimodal Aspect-Category Sentiment
Analysis (MACSA) dataset, which contains more than 21K text-image pairs. The
dataset provides fine-grained annotations for both textual and visual content
and firstly uses the aspect category as the pivot to align the fine-grained
elements between the two modalities. Based on our dataset, we propose the
Multimodal ACSA task and a multimodal graph-based aligned model (MGAM), which
adopts a fine-grained cross-modal fusion method. Experimental results show that
our method can facilitate the baseline comparison for future research on this
corpus. We will make the dataset and code publicly available.
- Abstract(参考訳): マルチモーダル微粒な感情分析は、その幅広い応用により近年注目を集めている。
しかし、既存のマルチモーダルな微妙な感情データセットは、テキストの細かい要素に注釈を付けることに重点を置いているが、画像の細かい要素は無視している。
本稿では,21K以上のテキスト・イメージ・ペアを含むMultimodal Aspect-Category Sentiment Analysis (MACSA)データセットを提案する。
データセットは、テキストコンテンツとビジュアルコンテンツの両方にきめ細かいアノテーションを提供し、まずアスペクトカテゴリをピボットとして使用し、2つのモダリティ間のきめ細かい要素を調整します。
本研究のデータセットに基づいて,細粒度クロスモーダル融合手法を応用したマルチモーダルacsaタスクとマルチモーダルグラフベースアライメントモデル(mgam)を提案する。
実験結果から,本手法は今後のコーパスのベースライン比較を容易にすることが示唆された。
データセットとコードを公開します。
関連論文リスト
- AMPLE: Emotion-Aware Multimodal Fusion Prompt Learning for Fake News Detection [0.1499944454332829]
本稿では,Emotion-textbfAware textbfMultimodal Fusion textbfPrompt textbfLtextbfEarning (textbfAMPLE) フレームワークについて述べる。
このフレームワークは感情分析ツールを利用してテキストから感情要素を抽出する。
次に、マルチヘッドクロスアテンション(MCA)機構と類似性を考慮した融合手法を用いて、マルチモーダルデータを統合する。
論文 参考訳(メタデータ) (2024-10-21T02:19:24Z) - Anno-incomplete Multi-dataset Detection [67.69438032767613]
我々は「不完全なマルチデータセット検出」という新しい問題を提案する。
複数の注釈付きデータセットで全ての対象カテゴリを正確に検出できるエンドツーエンドのマルチタスク学習アーキテクチャを開発した。
論文 参考訳(メタデータ) (2024-08-29T03:58:21Z) - MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。
10のモダリティで2500万枚以上の画像をカバーしており、65以上の疾患に対する多彩なアノテーションがある。
画像テキストペアの可用性によって制限された既存のアプローチとは異なり、私たちは最初の自動パイプラインを開発しました。
論文 参考訳(メタデータ) (2024-08-06T02:09:35Z) - New Benchmark Dataset and Fine-Grained Cross-Modal Fusion Framework for Vietnamese Multimodal Aspect-Category Sentiment Analysis [1.053698976085779]
ホテルドメインのテキストと画像の両方に対して,14,618の微粒なアノテーションと4,876のテキストイメージ対からなるベトナムのマルチモーダルデータセットであるViMACSAを導入する。
そこで本研究では,細粒クロスモーダル・フュージョン・フレームワーク(FCMF, Fine-Grained Cross-Modal Fusion Framework)を提案する。
実験の結果,本フレームワークはViMACSAデータセット上でのSOTAモデルよりも優れており,F1スコアは79.73%であった。
論文 参考訳(メタデータ) (2024-05-01T14:29:03Z) - DRIN: Dynamic Relation Interactive Network for Multimodal Entity Linking [31.15972952813689]
本稿では,MEL タスクのための Dynamic Relation Interactive Network (DRIN) という新しいフレームワークを提案する。
DRINは、参照とエンティティの間の4種類のアライメントを明示的にモデル化し、動的グラフ畳み込みネットワーク(GCN)を構築し、異なる入力サンプルに対して対応するアライメント関係を動的に選択する。
2つのデータセットの実験により、DRINは最先端の手法を大きなマージンで上回り、我々のアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2023-10-09T10:21:42Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation
of Videos [106.06278332186106]
マルチモーダル・アウトプット(MSMO)を用いたマルチモーダル・サマリゼーションが有望な研究方向として浮上している。
既存のパブリックMSMOデータセットには多くの制限がある。
textbfMMSumデータセットを精巧にキュレートした。
論文 参考訳(メタデータ) (2023-06-07T07:43:11Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z) - Transformer-based Multi-Aspect Modeling for Multi-Aspect Multi-Sentiment
Analysis [56.893393134328996]
本稿では,複数の側面間の潜在的な関係を抽出し,文中のすべての側面の感情を同時に検出できるトランスフォーマーベースのマルチアスペクトモデリング手法を提案する。
本手法はBERTやRoBERTaといった強力なベースラインと比較して顕著な改善を実現している。
論文 参考訳(メタデータ) (2020-11-01T11:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。