論文の概要: RCLMuFN: Relational Context Learning and Multiplex Fusion Network for Multimodal Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2412.13008v1
- Date: Tue, 17 Dec 2024 15:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:23.456821
- Title: RCLMuFN: Relational Context Learning and Multiplex Fusion Network for Multimodal Sarcasm Detection
- Title(参考訳): RCLMuFN:マルチモーダルサーカスム検出のための関係文脈学習と多重融合ネットワーク
- Authors: Tongguan Wang, Junkai Li, Guixin Su, Yongcheng Zhang, Dongyu Su, Yuxue Hu, Ying Sha,
- Abstract要約: マルチモーダルサルカズム検出のための関係文脈学習と多重化融合ネットワーク(RCLMuFN)を提案する。
まず,4つの特徴抽出器を用いて,原文や画像から特徴を包括的に抽出する。
次に,関係文脈学習モジュールを用いて,テキストや画像の文脈情報を学習する。
- 参考スコア(独自算出の注目度): 1.023096557577223
- License:
- Abstract: Sarcasm typically conveys emotions of contempt or criticism by expressing a meaning that is contrary to the speaker's true intent. Accurate detection of sarcasm aids in identifying and filtering undesirable information on the Internet, thereby reducing malicious defamation and rumor-mongering. Nonetheless, the task of automatic sarcasm detection remains highly challenging for machines, as it critically depends on intricate factors such as relational context. Most existing multimodal sarcasm detection methods focus on introducing graph structures to establish entity relationships between text and images while neglecting to learn the relational context between text and images, which is crucial evidence for understanding the meaning of sarcasm. In addition, the meaning of sarcasm changes with the evolution of different contexts, but existing methods may not be accurate in modeling such dynamic changes, limiting the generalization ability of the models. To address the above issues, we propose a relational context learning and multiplex fusion network (RCLMuFN) for multimodal sarcasm detection. Firstly, we employ four feature extractors to comprehensively extract features from raw text and images, aiming to excavate potential features that may have been previously overlooked. Secondly, we utilize the relational context learning module to learn the contextual information of text and images and capture the dynamic properties through shallow and deep interactions. Finally, we employ a multiplex feature fusion module to enhance the generalization of the model by penetratingly integrating multimodal features derived from various interaction contexts. Extensive experiments on two multimodal sarcasm detection datasets show that our proposed method achieves state-of-the-art performance.
- Abstract(参考訳): サルカスムは通常、話者の真の意図に反する意味を表現することによって、軽蔑や批判の感情を伝える。
インターネット上での望ましくない情報の特定とフィルタリングにおいて、サルカズムの正確な検出が有効であり、悪質な破壊と噂の監視が軽減される。
それでも、関係性のような複雑な要因に依存するため、自動サルカズム検出のタスクは、マシンにとって非常に難しいままである。
既存のマルチモーダル・サルカズム検出手法の多くは、テキストと画像間の実体関係を確立するグラフ構造の導入に重点を置いているが、テキストと画像間の関係文脈を学習することは無視されているため、サルカズムの意味を理解する上で重要な証拠である。
加えて、サルカズムの意味は異なる文脈の進化とともに変化するが、既存の手法はそのような動的変化をモデル化する際に正確ではなく、モデルの一般化能力を制限している。
上記の問題に対処するため,マルチモーダルサルカズム検出のための関係文脈学習と多重化融合ネットワーク(RCLMuFN)を提案する。
まず、4つの特徴抽出器を用いて生のテキストや画像から特徴を包括的に抽出する。
次に、関係文脈学習モジュールを用いて、テキストと画像の文脈情報を学習し、浅い相互作用と深い相互作用を通して動的特性をキャプチャする。
最後に、様々な相互作用コンテキストから派生したマルチモーダル特徴を浸透的に統合することにより、モデルの一般化を促進するために多重機能融合モジュールを用いる。
2つのマルチモーダル・サルカズム検出データセットの大規模な実験により,提案手法が最先端の性能を実現することを示す。
関連論文リスト
- Modelling Visual Semantics via Image Captioning to extract Enhanced Multi-Level Cross-Modal Semantic Incongruity Representation with Attention for Multimodal Sarcasm Detection [12.744170917349287]
本研究では,入力三重項を処理可能なマルチモーダルサルカズム検出のための新しいフレームワークを提案する。
提案したモデルは、TwitterのマルチモーダルサルカムとMultiBullyデータセットでそれぞれ92.89%と64.48%の精度を達成する。
論文 参考訳(メタデータ) (2024-08-05T16:07:31Z) - VyAnG-Net: A Novel Multi-Modal Sarcasm Recognition Model by Uncovering Visual, Acoustic and Glossary Features [13.922091192207718]
サルカズム認識は、日常の対話に埋め込まれた隠された皮肉、批判、比喩的な情報を識別することを目的としている。
本稿では,軽量な奥行き注意モジュールと自己制御型ConvNetを組み合わせることで,視覚データの最も重要な特徴に集中する手法を提案する。
我々はまた、別のデータセットMUStARD++の見知らぬサンプルを用いて、VyAnG-Netの適応性をテストするために、クロスデータセット解析を行った。
論文 参考訳(メタデータ) (2024-08-05T15:36:52Z) - Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue [63.32199372362483]
本稿では,SEntiment-enhanceD Graph を用いたマルチモーダルサルカズム記述フレームワーク EDGE を提案する。
特に,まずレキシコン誘導型発話感情推論モジュールを提案し,そこでは発話感情改善戦略を考案する。
次に,マルチモーダル感情分析モデル JCA を拡張し,映像音声クリップ毎に共同感情ラベルを導出することにより,JCA-SI (Joint Cross Attention-based Sentiment Inference) というモジュールを開発する。
論文 参考訳(メタデータ) (2024-02-06T03:14:46Z) - Image Matters: A New Dataset and Empirical Study for Multimodal
Hyperbole Detection [52.04083398850383]
私たちはWeibo(中国のソーシャルメディア)からマルチモーダル検出データセットを作成します。
Weiboのテキストとイメージを2つのモダリティとして扱い、ハイパボラ検出におけるテキストとイメージの役割を探求する。
また、このダウンストリームタスクにおいて、事前訓練された異なるマルチモーダルエンコーダの評価を行い、その性能を示す。
論文 参考訳(メタデータ) (2023-07-01T03:23:56Z) - Multi-source Semantic Graph-based Multimodal Sarcasm Explanation
Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。
TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。
TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文 参考訳(メタデータ) (2023-06-29T03:26:10Z) - Sarcasm Detection Framework Using Emotion and Sentiment Features [62.997667081978825]
本研究では,感情と感情の特徴を取り入れたモデルを提案する。
我々のアプローチは、ソーシャルネットワークプラットフォームとオンラインメディアの4つのデータセットに対して、最先端の結果を得た。
論文 参考訳(メタデータ) (2022-11-23T15:14:44Z) - How to Describe Images in a More Funny Way? Towards a Modular Approach
to Cross-Modal Sarcasm Generation [62.89586083449108]
本稿では,CMSG(Cross-modal sarcasm Generation)の新たな問題,すなわち,与えられた画像に対してサーカシックな記述を生成することについて検討する。
CMSGは、異なるモード間の相関だけでなく、サルカズムの特性をモデルが満たさなければならないため、困難である。
クロスモデルサルカズム生成のための抽出・生成・生成に基づくモジュール法(EGRM)を提案する。
論文 参考訳(メタデータ) (2022-11-20T14:38:24Z) - Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity
Modeling with Knowledge Enhancement [31.97249246223621]
サルカスム(Sarcasm)は、文字通りの意味と暗示意図の相違を示す言語現象である。
既存の技術のほとんどは、テキスト入力と付随する画像の間の原子レベルの不整合をモデル化しただけだった。
本稿では,マルチヘッドのクロスアテンション機構に基づく原子レベルの合同性と,グラフニューラルネットワークに基づく合成レベルの合同性の両方を探索し,サルカズム検出のための新しい階層的枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-07T12:44:33Z) - Multimodal Learning using Optimal Transport for Sarcasm and Humor
Detection [76.62550719834722]
会話ビデオと画像テキストのペアからマルチモーダルサルカズムとユーモアを検出する。
本稿では,モーダル内対応を利用したマルチモーダル学習システム MuLOT を提案する。
3つのベンチマークデータセット上で,マルチモーダルサルカズムとユーモア検出のためのアプローチを検証した。
論文 参考訳(メタデータ) (2021-10-21T07:51:56Z) - Multi-Modal Sarcasm Detection Based on Contrastive Attention Mechanism [7.194040730138362]
本研究では、モーダリティ間コントラストアテンションに基づくSarcasm Detection(ConAttSD)モデルを構築し、モーダリティ間コントラストアテンション機構を用いて発話のコントラスト特徴を抽出する。
ベンチマークマルチモーダルサルカズムデータセットであるMUStARDに関する実験により,提案したConAttSDモデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-09-30T14:17:51Z) - Interpretable Multi-Head Self-Attention model for Sarcasm Detection in
social media [0.0]
sarcastic expressionの曖昧さは、sarcasmの発見を非常に困難にしている。
マルチヘッドセルフアテンションとゲートリカレントユニットを用いた解釈可能なディープラーニングモデルを開発する。
本稿では,複数のデータセットで最新の結果を得る手法の有効性を示す。
論文 参考訳(メタデータ) (2021-01-14T21:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。