論文の概要: RNG: Reducing Multi-level Noise and Multi-grained Semantic Gap for Joint Multimodal Aspect-Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2405.13059v1
- Date: Mon, 20 May 2024 12:18:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 04:32:08.851016
- Title: RNG: Reducing Multi-level Noise and Multi-grained Semantic Gap for Joint Multimodal Aspect-Sentiment Analysis
- Title(参考訳): RNG:複合型マルチモーダルアスペクト感度解析のためのマルチレベルノイズ低減とマルチグレードセマンティックギャップ
- Authors: Yaxin Liu, Yan Zhou, Ziming Li, Jinchuan Zhang, Yu Shang, Chenyang Zhang, Songlin Hu,
- Abstract要約: JMASA(Joint Multimodal Aspect-Sentiment Analysis)のための新しいフレームワークRNGを提案する。
具体的には、マルチレベルなモーダリティノイズとマルチレベルなセマンティックギャップを減らすために、3つの制約を設計する。
2つのデータセットの実験は、新しい最先端のパフォーマンスを検証する。
- 参考スコア(独自算出の注目度): 27.545702415272125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an important multimodal sentiment analysis task, Joint Multimodal Aspect-Sentiment Analysis (JMASA), aiming to jointly extract aspect terms and their associated sentiment polarities from the given text-image pairs, has gained increasing concerns. Existing works encounter two limitations: (1) multi-level modality noise, i.e., instance- and feature-level noise; and (2) multi-grained semantic gap, i.e., coarse- and fine-grained gap. Both issues may interfere with accurate identification of aspect-sentiment pairs. To address these limitations, we propose a novel framework named RNG for JMASA. Specifically, to simultaneously reduce multi-level modality noise and multi-grained semantic gap, we design three constraints: (1) Global Relevance Constraint (GR-Con) based on text-image similarity for instance-level noise reduction, (2) Information Bottleneck Constraint (IB-Con) based on the Information Bottleneck (IB) principle for feature-level noise reduction, and (3) Semantic Consistency Constraint (SC-Con) based on mutual information maximization in a contrastive learning way for multi-grained semantic gap reduction. Extensive experiments on two datasets validate our new state-of-the-art performance.
- Abstract(参考訳): 重要なマルチモーダル感情分析タスクであるJMASA(Joint Multimodal Aspect-Sentiment Analysis)は、与えられたテキストイメージ対からアスペクト項と関連する感情極性を共同抽出することを目的としており、懸念が高まっている。
既存の作業は,(1)多レベルモードノイズ,すなわち,事例レベルと特徴レベルノイズ,(2)多層セマンティックギャップ,すなわち粗くきめ細かなギャップの2つの限界に直面する。
どちらの問題もアスペクト知覚対の正確な識別に干渉する可能性がある。
これらの制約に対処するため、我々はRNG for JMASAという新しいフレームワークを提案する。
具体的には, マルチレベル・モダリティノイズと多粒性セマンティックギャップを同時に低減するために, 1) インスタンスレベルのノイズ低減のためのテキスト画像類似性に基づくグローバルリラクタンス制約(GR-Con), (2) 特徴レベルのノイズ低減のための情報ボトルネック(IB-Con)原理に基づく情報ボトルネック制約(IB-Con), 3) 多粒性セマンティック・セマンティック・セマンティック・セマンティック・ギャップ低減のための対照的な学習方法に基づくセマンティック・コンストラクト(SC-Con)の3つの制約を設計する。
2つのデータセットに関する大規模な実験は、我々の新しい最先端のパフォーマンスを検証する。
関連論文リスト
- Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Similarity Guided Multimodal Fusion Transformer for Semantic Location Prediction in Social Media [34.664388374279596]
マルチモーダル投稿からユーザのセマンティックな位置を予測するためのSG-MFT(Simisity-Guided Fusion Transformer)を提案する。
まず,事前学習した大規模視覚言語モデルを用いて,高品質なテキストと画像表現を組み込む。
そこで我々は, 異質性やノイズ干渉を緩和するSimisity-Guided Interaction Module (SIM) を考案した。
論文 参考訳(メタデータ) (2024-05-09T13:32:26Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Enhancing Multimodal Entity and Relation Extraction with Variational
Information Bottleneck [12.957002659910456]
マルチモーダルなエンティティ認識(MNER)とマルチモーダルな関係抽出(MRE)について検討する。
MNERとMREの中核は、テキストセマンティクスを強化するために明らかな視覚情報を統合することである。
MMIB(Information Bottleneck)を用いたマルチモーダル表現学習によるMNERとMREの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T09:32:25Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。