論文の概要: InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2406.16464v3
- Date: Sun, 4 Aug 2024 05:42:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 20:38:40.912208
- Title: InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection
- Title(参考訳): InterCLIP-MEP:マルチモーダルサーカスム検出のための対話型CLIPとメモリ拡張予測器
- Authors: Junjie Chen, Hang Yu, Weidong Liu, Subin Huang, Sanmin Liu,
- Abstract要約: マルチモーダルサルカズム検出のための新しいフレームワークであるInterCLIP-MEPを提案する。
InterCLIPはテキストイメージ表現を抽出するバックボーンであり、各エンコーダに直接クロスモダリティ情報を埋め込むことでそれらを強化する。
MEPは動的で固定長のデュアルチャネルメモリを使用して、推論中に貴重なテストサンプルの履歴情報を格納する。
InterCLIP-MEPはMMSD2.0ベンチマークの最先端性能を実現し、精度は1.08%、F1スコアは1.51%向上した。
- 参考スコア(独自算出の注目度): 10.736718868448175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevalence of sarcasm in social media, conveyed through text-image combinations, presents significant challenges for sentiment analysis and intention mining. Existing multi-modal sarcasm detection methods have been proven to overestimate performance, as they struggle to effectively capture the intricate sarcastic cues that arise from the interaction between an image and text. To address these issues, we propose InterCLIP-MEP, a novel framework for multi-modal sarcasm detection. Specifically, we introduce an Interactive CLIP (InterCLIP) as the backbone to extract text-image representations, enhancing them by embedding cross-modality information directly within each encoder, thereby improving the representations to capture text-image interactions better. Furthermore, an efficient training strategy is designed to adapt InterCLIP for our proposed Memory-Enhanced Predictor (MEP). MEP uses a dynamic, fixed-length dual-channel memory to store historical knowledge of valuable test samples during inference. It then leverages this memory as a non-parametric classifier to derive the final prediction, offering a more robust recognition of multi-modal sarcasm. Experiments demonstrate that InterCLIP-MEP achieves state-of-the-art performance on the MMSD2.0 benchmark, with an accuracy improvement of 1.08% and an F1 score improvement of 1.51% over the previous best method. Code and data are available at https://github.com/CoderChen01/InterCLIP-MEP.
- Abstract(参考訳): ソーシャルメディアにおけるサルカズムの頻度は、テキストと画像の組み合わせを通して伝えられ、感情分析と意図的マイニングにおいて重要な課題が提示される。
既存のマルチモーダルサルカズム検出法は、画像とテキストの相互作用から生じる複雑なサーカシックな手がかりを効果的に捉えるのに苦労するため、性能を過大評価することが証明されている。
これらの問題に対処するため,マルチモーダルサルカズム検出のための新しいフレームワークであるInterCLIP-MEPを提案する。
具体的には,対話型CLIP (InterCLIP) をバックボーンとして導入し,テキストイメージの表現を抽出し,各エンコーダに直接モダリティ情報を埋め込むことにより,テキストイメージのインタラクションをよりよくキャプチャするための表現を改善する。
さらに、提案したメモリ拡張予測器(MEP)にInterCLIPを適用するための効率的なトレーニング戦略を設計する。
MEPは動的で固定長のデュアルチャネルメモリを使用して、推論中に貴重なテストサンプルの履歴情報を格納する。
その後、このメモリを非パラメトリック分類器として利用して最終的な予測を導き、マルチモーダルサルカズムをより堅牢に認識する。
実験により,InterCLIP-MEPはMMSD2.0ベンチマークの最先端性能を実現し,精度は1.08%,F1スコアは1.51%向上した。
コードとデータはhttps://github.com/CoderChen01/InterCLIP-MEPで公開されている。
関連論文リスト
- RCLMuFN: Relational Context Learning and Multiplex Fusion Network for Multimodal Sarcasm Detection [1.023096557577223]
マルチモーダルサルカズム検出のための関係文脈学習と多重化融合ネットワーク(RCLMuFN)を提案する。
まず,4つの特徴抽出器を用いて,原文や画像から特徴を包括的に抽出する。
次に,関係文脈学習モジュールを用いて,テキストや画像の文脈情報を学習する。
論文 参考訳(メタデータ) (2024-12-17T15:29:31Z) - AMuSeD: An Attentive Deep Neural Network for Multimodal Sarcasm Detection Incorporating Bi-modal Data Augmentation [11.568176591294746]
AMuSeD (bi-modal data augmentation を用いたMUltimodal Sarcasm dEtection の深部ニューラルネットワーク) を提案する。
このアプローチでは,Multimodal Sarcasm Detection dataset (MUStARD) を用いて,2段階のバイモーダルデータ拡張戦略を導入する。
第2フェーズでは、サルカシックなイントネーションを維持するために特別に調整された、FastSpeech 2ベースの音声合成システムを洗練する。
論文 参考訳(メタデータ) (2024-12-13T12:42:51Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - GCM-Net: Graph-enhanced Cross-Modal Infusion with a Metaheuristic-Driven Network for Video Sentiment and Emotion Analysis [2.012311338995539]
本稿では,発話からのマルチモーダルな文脈情報を活用し,メタヒューリスティックなアルゴリズムを用いて発話レベルの感情と感情予測を学習する新しい枠組みを提案する。
提案手法の有効性を示すため,我々は3つの顕著なマルチモーダル・ベンチマーク・データセットについて広範な評価を行った。
論文 参考訳(メタデータ) (2024-10-02T10:07:48Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - SCMM: Calibrating Cross-modal Representations for Text-Based Person Search [43.17325362167387]
テキストベースの人探索(TBPS)はIoT(Internet of Things)領域において重要なタスクである。
クロスモーダルTBPSタスクでは、共通空間においてよく分散された表現を得ることが重要である。
本稿では,Sew Embedding and Masked Modeling (SCMM)を提案する。
論文 参考訳(メタデータ) (2023-04-05T07:50:16Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Multimodal Learning using Optimal Transport for Sarcasm and Humor
Detection [76.62550719834722]
会話ビデオと画像テキストのペアからマルチモーダルサルカズムとユーモアを検出する。
本稿では,モーダル内対応を利用したマルチモーダル学習システム MuLOT を提案する。
3つのベンチマークデータセット上で,マルチモーダルサルカズムとユーモア検出のためのアプローチを検証した。
論文 参考訳(メタデータ) (2021-10-21T07:51:56Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。