Fugu-MT 論文翻訳(概要): New Benchmark Dataset and Fine-Grained Cross-Modal Fusion Framework for Vietnamese Multimodal Aspect-Category Sentiment Analysis

論文の概要: New Benchmark Dataset and Fine-Grained Cross-Modal Fusion Framework for Vietnamese Multimodal Aspect-Category Sentiment Analysis

arxiv url: http://arxiv.org/abs/2405.00543v1
Date: Wed, 1 May 2024 14:29:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-02 15:27:48.907212
Title: New Benchmark Dataset and Fine-Grained Cross-Modal Fusion Framework for Vietnamese Multimodal Aspect-Category Sentiment Analysis
Title（参考訳）: ベトナムのマルチモーダル・アスペクト・カテゴリ・センタリー分析のためのベンチマークデータセットと細粒度クロスモーダル・フュージョン・フレームワーク
Authors: Quy Hoang Nguyen, Minh-Van Truong Nguyen, Kiet Van Nguyen,
Abstract要約: ホテルドメインのテキストと画像の両方に対して,14,618の微粒なアノテーションと4,876のテキストイメージ対からなるベトナムのマルチモーダルデータセットであるViMACSAを導入する。そこで本研究では,細粒クロスモーダル・フュージョン・フレームワーク(FCMF, Fine-Grained Cross-Modal Fusion Framework)を提案する。実験の結果,本フレームワークはViMACSAデータセット上でのSOTAモデルよりも優れており,F1スコアは79.73%であった。
参考スコア（独自算出の注目度）: 1.053698976085779
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The emergence of multimodal data on social media platforms presents new opportunities to better understand user sentiments toward a given aspect. However, existing multimodal datasets for Aspect-Category Sentiment Analysis (ACSA) often focus on textual annotations, neglecting fine-grained information in images. Consequently, these datasets fail to fully exploit the richness inherent in multimodal. To address this, we introduce a new Vietnamese multimodal dataset, named ViMACSA, which consists of 4,876 text-image pairs with 14,618 fine-grained annotations for both text and image in the hotel domain. Additionally, we propose a Fine-Grained Cross-Modal Fusion Framework (FCMF) that effectively learns both intra- and inter-modality interactions and then fuses these information to produce a unified multimodal representation. Experimental results show that our framework outperforms SOTA models on the ViMACSA dataset, achieving the highest F1 score of 79.73%. We also explore characteristics and challenges in Vietnamese multimodal sentiment analysis, including misspellings, abbreviations, and the complexities of the Vietnamese language. This work contributes both a benchmark dataset and a new framework that leverages fine-grained multimodal information to improve multimodal aspect-category sentiment analysis. Our dataset is available for research purposes: https://github.com/hoangquy18/Multimodal-Aspect-Category-Sentiment-Analysis.
Abstract（参考訳）: ソーシャルメディアプラットフォーム上でのマルチモーダルデータの出現は、特定の側面に対するユーザの感情をよりよく理解する新たな機会を提供する。しかしながら、Aspect-Category Sentiment Analysis (ACSA) のための既存のマルチモーダルデータセットは、しばしば画像のきめ細かい情報を無視してテキストアノテーションに焦点を当てる。その結果、これらのデータセットはマルチモーダルに固有の豊かさを完全に活用することができない。この問題を解決するために,ベトナムのVMACSAという,14,618の細かいアノテーションと4,876のテキストイメージペアからなる,ベトナムのマルチモーダルデータセットを導入した。さらに,ファイン・グラインド・クロス・モーダル・フュージョン・フレームワーク (FCMF) を提案する。実験の結果,本フレームワークはViMACSAデータセット上でのSOTAモデルよりも優れており,F1スコアは79.73%であった。また,ベトナム語のミススペルや略語,複雑度など,ベトナムのマルチモーダル感情分析の特徴と課題についても検討する。この研究は、ベンチマークデータセットと、微細なマルチモーダル情報を利用して、マルチモーダルなアスペクト・カテゴリの感情分析を改善する新しいフレームワークの両方に貢献する。私たちのデータセットは、研究目的で利用可能です。

関連論文リスト

mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文参考訳（メタデータ） (2025-02-12T15:03:33Z)
Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文参考訳（メタデータ） (2024-08-06T12:45:56Z)
Exploring the Necessity of Visual Modality in Multimodal Machine Translation using Authentic Datasets [3.54128607634285]
実世界の翻訳データセットを活用し,視覚的モダリティが翻訳効率に与える影響について検討した。視覚的モダリティは、実際の翻訳データセットの大部分に有利であることが判明した。以上の結果から,視覚情報は多モーダル翻訳における補助的役割を担っていることが示唆された。
論文参考訳（メタデータ） (2024-04-09T08:19:10Z)
NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。 NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-03-28T03:04:00Z)
ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。 PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文参考訳（メタデータ） (2023-10-27T10:44:50Z)
JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文参考訳（メタデータ） (2023-07-03T02:39:08Z)
MuG: A Multimodal Classification Benchmark on Game Data with Tabular, Textual, and Visual Fields [26.450463943664822]
本研究では,8つのデータセットを用いたマルチモーダル分類ベンチマーク MuG を提案する。マルチアスペクトデータ分析を行い、ラベルバランス率、欠落特徴率、各モード内のデータの分布、ラベルと入力モダリティの相関など、ベンチマークに関する洞察を提供する。
論文参考訳（メタデータ） (2023-02-06T18:09:06Z)
Beyond Triplet: Leveraging the Most Data for Multimodal Machine Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文参考訳（メタデータ） (2022-12-20T15:02:38Z)
MACSA: A Multimodal Aspect-Category Sentiment Analysis Dataset with Multimodal Fine-grained Aligned Annotations [31.972103262426877]
我々は,21K以上のテキストイメージペアを含む新しいデータセットであるMultimodal Aspect-Category Sentiment Analysis (MACSA)を提案する。本稿では, マルチモーダルACSAタスクと多モーダルグラフベースアライメントモデル (MGAM) を提案する。
論文参考訳（メタデータ） (2022-06-28T12:49:16Z)
Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は近年ホットな研究テーマになっている。近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文参考訳（メタデータ） (2021-12-27T10:00:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。