論文の概要: InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2406.16464v4
- Date: Tue, 13 Aug 2024 09:52:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 22:04:55.196140
- Title: InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection
- Title(参考訳): InterCLIP-MEP:マルチモーダルサーカスム検出のための対話型CLIPとメモリ拡張予測器
- Authors: Junjie Chen, Hang Yu, Weidong Liu, Subin Huang, Sanmin Liu,
- Abstract要約: 既存のマルチモーダルサルカズム検出法は性能を過大評価することが証明されている。
マルチモーダルサルカズム検出のための新しいフレームワークであるInterCLIP-MEPを提案する。
InterCLIP-MEPはMMSD2.0ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 10.736718868448175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prevalence of sarcasm in social media, conveyed through text-image combinations, presents significant challenges for sentiment analysis and intention mining. Existing multi-modal sarcasm detection methods have been proven to overestimate performance, as they struggle to effectively capture the intricate sarcastic cues that arise from the interaction between an image and text. To address these issues, we propose InterCLIP-MEP, a novel framework for multi-modal sarcasm detection. Specifically, we introduce an Interactive CLIP (InterCLIP) as the backbone to extract text-image representations, enhancing them by embedding cross-modality information directly within each encoder, thereby improving the representations to capture text-image interactions better. Furthermore, an efficient training strategy is designed to adapt InterCLIP for our proposed Memory-Enhanced Predictor (MEP). MEP uses a dynamic, fixed-length dual-channel memory to store historical knowledge of valuable test samples during inference. It then leverages this memory as a non-parametric classifier to derive the final prediction, offering a more robust recognition of multi-modal sarcasm. Experiments demonstrate that InterCLIP-MEP achieves state-of-the-art performance on the MMSD2.0 benchmark, with an accuracy improvement of 1.08% and an F1 score improvement of 1.51% over the previous best method.
- Abstract(参考訳): ソーシャルメディアにおけるサルカズムの頻度は、テキストと画像の組み合わせを通して伝えられ、感情分析と意図的マイニングにおいて重要な課題が提示される。
既存のマルチモーダルサルカズム検出法は、画像とテキストの相互作用から生じる複雑なサーカシックな手がかりを効果的に捉えるのに苦労するため、性能を過大評価することが証明されている。
これらの問題に対処するため,マルチモーダルサルカズム検出のための新しいフレームワークであるInterCLIP-MEPを提案する。
具体的には,対話型CLIP (InterCLIP) をバックボーンとして導入し,テキストイメージの表現を抽出し,各エンコーダに直接モダリティ情報を埋め込むことにより,テキストイメージのインタラクションをよりよくキャプチャするための表現を改善する。
さらに、提案したメモリ拡張予測器(MEP)にInterCLIPを適用するための効率的なトレーニング戦略を設計する。
MEPは動的で固定長のデュアルチャネルメモリを使用して、推論中に貴重なテストサンプルの履歴情報を格納する。
その後、このメモリを非パラメトリック分類器として利用して最終的な予測を導き、マルチモーダルサルカズムをより堅牢に認識する。
実験により,InterCLIP-MEPはMMSD2.0ベンチマークの最先端性能を実現し,精度は1.08%,F1スコアは1.51%向上した。
関連論文リスト
- Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference
of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。
具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。
低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。
計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文 参考訳(メタデータ) (2023-07-14T21:01:59Z) - CyCLIP: Cyclic Contrastive Language-Image Pretraining [34.588147979731374]
ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。
我々は、標準のコントラスト目的によって学習された画像とテキストの表現が交換不可能であり、不整合な下流予測につながることを実証した。
画像やテキスト空間で幾何学的に一貫した表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
論文 参考訳(メタデータ) (2022-05-28T15:31:17Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - FiLMing Multimodal Sarcasm Detection with Attention [0.7340017786387767]
サルカスムの検出は、意図された意味がその表面的な意味によって示されるものと異なる自然言語表現を特定する。
本稿では,入力テキストと画像属性のコンテキスト不整合を組み込むために,RoBERTaモデルとコアテンション層を用いた新しいアーキテクチャを提案する。
提案手法は,Twitterのマルチモーダル検出データセットの6.14%のF1スコアにおいて,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T06:33:29Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Moving Towards Centers: Re-ranking with Attention and Memory for
Re-identification [18.539658212171062]
リグレードは、コンテキスト情報を利用して、人物または車両の再識別(re-ID)の初期ランキングリストを最適化する
本論文では,プローブと近傍試料の相関を予測するための再ランクネットワークを提案する。
論文 参考訳(メタデータ) (2021-05-04T12:14:30Z) - Memory Group Sampling Based Online Action Recognition Using Kinetic
Skeleton Features [4.674689979981502]
本稿では,オンライン行動認識問題を扱うための2つの中核的アイデアを提案する。
まず, 空間的特徴と時間的特徴を組み合わせることで, 行動の描写を行う。
次に,従来の動作フレームと現在の動作フレームを組み合わせたメモリグループサンプリング手法を提案する。
第3に、改良された1D CNNネットワークを使用して、サンプルフレームの機能をトレーニングし、テストする。
論文 参考訳(メタデータ) (2020-11-01T16:43:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。