論文の概要: InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2406.16464v1
- Date: Mon, 24 Jun 2024 09:13:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 15:33:48.951760
- Title: InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection
- Title(参考訳): InterCLIP-MEP:マルチモーダルサーカスム検出のための対話型CLIPとメモリ拡張予測器
- Authors: Junjie Chen, Subin Huang,
- Abstract要約: マルチモーダルサルカズム検出のための堅牢なフレームワークであるInterCLIP-MEPを提案する。
InterCLIP-MEPはCLIPの改良版であるInterCLIP(Interactive CLIP)をバックボーンとして導入している。
メモリ拡張予測器にInterCLIPを適用するための新しいトレーニング戦略が設計されている。
実験により、InterCLIP-MEPはMMSD2.0ベンチマークで最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 5.557161693864903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevalence of sarcasm in social media, conveyed through text-image combinations, presents significant challenges for sentiment analysis and intention mining. Current multi-modal sarcasm detection methods have been proven to struggle with biases from spurious cues, leading to a superficial understanding of the complex interactions between text and image. To address these issues, we propose InterCLIP-MEP, a robust framework for multi-modal sarcasm detection. InterCLIP-MEP introduces a refined variant of CLIP, Interactive CLIP (InterCLIP), as the backbone, enhancing sample representations by embedding cross-modality information in each encoder. Furthermore, a novel training strategy is designed to adapt InterCLIP for a Memory-Enhanced Predictor (MEP). MEP uses dynamic dual-channel memory to store valuable historical knowledge of test samples and then leverages this memory as a non-parametric classifier to derive the final prediction. By using InterCLIP to encode text-image interactions more effectively and incorporating MEP, InterCLIP-MEP offers a more robust recognition of multi-modal sarcasm. Experiments demonstrate that InterCLIP-MEP achieves state-of-the-art performance on the MMSD2.0 benchmark. Code and data are available at [https://github.com/CoderChen01/InterCLIP-MEP](https://github.com/CoderChen01/InterCLIP-MEP).
- Abstract(参考訳): ソーシャルメディアにおけるサルカズムの頻度は、テキストと画像の組み合わせを通して伝えられ、感情分析と意図的マイニングにおいて重要な課題が提示される。
現在のマルチモーダル・サルカズム検出法は、刺激的な手がかりからの偏見に苦しむことが証明されており、テキストと画像の間の複雑な相互作用を表面的に理解している。
これらの問題に対処するため,マルチモーダルサルカズム検出のための堅牢なフレームワークであるInterCLIP-MEPを提案する。
InterCLIP-MEPは、CLIPの改良版であるInteractive CLIP(InterCLIP)をバックボーンとして導入し、各エンコーダにクロスモーダル情報を埋め込んでサンプル表現を強化する。
さらに、メモリ拡張予測器(MEP)にInterCLIPを適用するための新しいトレーニング戦略が設計されている。
MEPは動的デュアルチャネルメモリを使用してテストサンプルの貴重な履歴情報を記憶し、このメモリを非パラメトリック分類器として利用して最終的な予測を導出する。
InterCLIPを用いてテキストと画像の相互作用をより効果的にエンコードし、MEPを組み込むことで、InterCLIP-MEPはマルチモーダルサルカズムをより堅牢に認識する。
実験により、InterCLIP-MEPはMMSD2.0ベンチマークで最先端のパフォーマンスを達成することが示された。
コードとデータは[https://github.com/CoderChen01/InterCLIP-MEP](https://github.com/CoderChen01/InterCLIP-MEP]で入手できる。
関連論文リスト
- RCLMuFN: Relational Context Learning and Multiplex Fusion Network for Multimodal Sarcasm Detection [1.023096557577223]
マルチモーダルサルカズム検出のための関係文脈学習と多重化融合ネットワーク(RCLMuFN)を提案する。
まず,4つの特徴抽出器を用いて,原文や画像から特徴を包括的に抽出する。
次に,関係文脈学習モジュールを用いて,テキストや画像の文脈情報を学習する。
論文 参考訳(メタデータ) (2024-12-17T15:29:31Z) - AMuSeD: An Attentive Deep Neural Network for Multimodal Sarcasm Detection Incorporating Bi-modal Data Augmentation [11.568176591294746]
AMuSeD (bi-modal data augmentation を用いたMUltimodal Sarcasm dEtection の深部ニューラルネットワーク) を提案する。
このアプローチでは,Multimodal Sarcasm Detection dataset (MUStARD) を用いて,2段階のバイモーダルデータ拡張戦略を導入する。
第2フェーズでは、サルカシックなイントネーションを維持するために特別に調整された、FastSpeech 2ベースの音声合成システムを洗練する。
論文 参考訳(メタデータ) (2024-12-13T12:42:51Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - GCM-Net: Graph-enhanced Cross-Modal Infusion with a Metaheuristic-Driven Network for Video Sentiment and Emotion Analysis [2.012311338995539]
本稿では,発話からのマルチモーダルな文脈情報を活用し,メタヒューリスティックなアルゴリズムを用いて発話レベルの感情と感情予測を学習する新しい枠組みを提案する。
提案手法の有効性を示すため,我々は3つの顕著なマルチモーダル・ベンチマーク・データセットについて広範な評価を行った。
論文 参考訳(メタデータ) (2024-10-02T10:07:48Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - SCMM: Calibrating Cross-modal Representations for Text-Based Person Search [43.17325362167387]
テキストベースの人探索(TBPS)はIoT(Internet of Things)領域において重要なタスクである。
クロスモーダルTBPSタスクでは、共通空間においてよく分散された表現を得ることが重要である。
本稿では,Sew Embedding and Masked Modeling (SCMM)を提案する。
論文 参考訳(メタデータ) (2023-04-05T07:50:16Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Multimodal Learning using Optimal Transport for Sarcasm and Humor
Detection [76.62550719834722]
会話ビデオと画像テキストのペアからマルチモーダルサルカズムとユーモアを検出する。
本稿では,モーダル内対応を利用したマルチモーダル学習システム MuLOT を提案する。
3つのベンチマークデータセット上で,マルチモーダルサルカズムとユーモア検出のためのアプローチを検証した。
論文 参考訳(メタデータ) (2021-10-21T07:51:56Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。