論文の概要: InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2406.16464v5
- Date: Mon, 16 Dec 2024 04:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:53:26.253411
- Title: InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection
- Title(参考訳): InterCLIP-MEP:マルチモーダルサーカスム検出のための対話型CLIPとメモリ拡張予測器
- Authors: Junjie Chen, Hang Yu, Subin Huang, Sanmin Liu, Linfeng Zhang,
- Abstract要約: ソーシャルメディアでは、しばしばテキストと画像の組み合わせを通して表現されるサルカズムは、感情分析と意図的マイニングの課題を提起する。
我々は、リッチテキストイメージ表現を抽出する効率的なトレーニング戦略を備えたInterCLIP-MEPを提案する。
その結果,InterCLIP-MEPは,MMSDとMMSD2.0の精度とF1スコアの改善を達成できた。
- 参考スコア(独自算出の注目度): 17.55808303452098
- License:
- Abstract: Sarcasm in social media, often expressed through text-image combinations, poses challenges for sentiment analysis and intention mining. Current multi-modal sarcasm detection methods have been demonstrated to overly rely on spurious cues within the textual modality, revealing a limited ability to genuinely identify sarcasm through nuanced text-image interactions. To solve this problem, we propose InterCLIP-MEP, which introduces Interactive CLIP (InterCLIP) with an efficient training strategy to extract enriched text-image representations by embedding cross-modal information directly into each encoder. Additionally, we design a Memory-Enhanced Predictor (MEP) with a dynamic dual-channel memory that stores valuable test sample knowledge during inference, acting as a non-parametric classifier for robust sarcasm recognition. Experiments on two benchmarks demonstrate that InterCLIP-MEP achieves state-of-the-art performance, with significant accuracy and F1 score improvements on MMSD and MMSD2.0. Our code is available at https://github.com/CoderChen01/InterCLIP-MEP.
- Abstract(参考訳): ソーシャルメディアでは、しばしばテキストと画像の組み合わせを通して表現されるサルカズムは、感情分析と意図的マイニングの課題を提起する。
現在のマルチモーダル・サルカズム検出法は、テキストモダリティ内の急激な手がかりを過度に頼っていることが示されており、ニュアンスド・テキスト・イメージの相互作用によって、サルカズムを真に識別する能力に限界があることが示されている。
この問題を解決するために,InterCLIP-MEPを提案する。InterCLIPは対話型CLIP(InterCLIP)を導入し,各エンコーダに直接クロスモーダル情報を埋め込むことで,リッチなテキストイメージ表現を抽出する。
さらに、動的二重チャネルメモリを備えたメモリ拡張予測器(MEP)を設計し、推論中に貴重なテストサンプル知識を記憶し、ロバストな皮肉認識のための非パラメトリック分類器として機能する。
2つのベンチマーク実験により、InterCLIP-MEPは、MMSDとMMSD2.0の精度とF1スコアの改善により、最先端のパフォーマンスを達成することが示された。
私たちのコードはhttps://github.com/CoderChen01/InterCLIP-MEPで利用可能です。
関連論文リスト
- RCLMuFN: Relational Context Learning and Multiplex Fusion Network for Multimodal Sarcasm Detection [1.023096557577223]
マルチモーダルサルカズム検出のための関係文脈学習と多重化融合ネットワーク(RCLMuFN)を提案する。
まず,4つの特徴抽出器を用いて,原文や画像から特徴を包括的に抽出する。
次に,関係文脈学習モジュールを用いて,テキストや画像の文脈情報を学習する。
論文 参考訳(メタデータ) (2024-12-17T15:29:31Z) - AMuSeD: An Attentive Deep Neural Network for Multimodal Sarcasm Detection Incorporating Bi-modal Data Augmentation [11.568176591294746]
AMuSeD (bi-modal data augmentation を用いたMUltimodal Sarcasm dEtection の深部ニューラルネットワーク) を提案する。
このアプローチでは,Multimodal Sarcasm Detection dataset (MUStARD) を用いて,2段階のバイモーダルデータ拡張戦略を導入する。
第2フェーズでは、サルカシックなイントネーションを維持するために特別に調整された、FastSpeech 2ベースの音声合成システムを洗練する。
論文 参考訳(メタデータ) (2024-12-13T12:42:51Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - GCM-Net: Graph-enhanced Cross-Modal Infusion with a Metaheuristic-Driven Network for Video Sentiment and Emotion Analysis [2.012311338995539]
本稿では,発話からのマルチモーダルな文脈情報を活用し,メタヒューリスティックなアルゴリズムを用いて発話レベルの感情と感情予測を学習する新しい枠組みを提案する。
提案手法の有効性を示すため,我々は3つの顕著なマルチモーダル・ベンチマーク・データセットについて広範な評価を行った。
論文 参考訳(メタデータ) (2024-10-02T10:07:48Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - SCMM: Calibrating Cross-modal Representations for Text-Based Person Search [43.17325362167387]
テキストベースの人探索(TBPS)はIoT(Internet of Things)領域において重要なタスクである。
クロスモーダルTBPSタスクでは、共通空間においてよく分散された表現を得ることが重要である。
本稿では,Sew Embedding and Masked Modeling (SCMM)を提案する。
論文 参考訳(メタデータ) (2023-04-05T07:50:16Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Multimodal Learning using Optimal Transport for Sarcasm and Humor
Detection [76.62550719834722]
会話ビデオと画像テキストのペアからマルチモーダルサルカズムとユーモアを検出する。
本稿では,モーダル内対応を利用したマルチモーダル学習システム MuLOT を提案する。
3つのベンチマークデータセット上で,マルチモーダルサルカズムとユーモア検出のためのアプローチを検証した。
論文 参考訳(メタデータ) (2021-10-21T07:51:56Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。