Fugu-MT 論文翻訳(概要): InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection

論文の概要: InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection

arxiv url: http://arxiv.org/abs/2406.16464v3
Date: Sun, 4 Aug 2024 05:42:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 20:38:40.912208
Title: InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection
Title（参考訳）: InterCLIP-MEP:マルチモーダルサーカスム検出のための対話型CLIPとメモリ拡張予測器
Authors: Junjie Chen, Hang Yu, Weidong Liu, Subin Huang, Sanmin Liu,
Abstract要約: マルチモーダルサルカズム検出のための新しいフレームワークであるInterCLIP-MEPを提案する。 InterCLIPはテキストイメージ表現を抽出するバックボーンであり、各エンコーダに直接クロスモダリティ情報を埋め込むことでそれらを強化する。 MEPは動的で固定長のデュアルチャネルメモリを使用して、推論中に貴重なテストサンプルの履歴情報を格納する。 InterCLIP-MEPはMMSD2.0ベンチマークの最先端性能を実現し、精度は1.08%、F1スコアは1.51%向上した。
参考スコア（独自算出の注目度）: 10.736718868448175
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The prevalence of sarcasm in social media, conveyed through text-image combinations, presents significant challenges for sentiment analysis and intention mining. Existing multi-modal sarcasm detection methods have been proven to overestimate performance, as they struggle to effectively capture the intricate sarcastic cues that arise from the interaction between an image and text. To address these issues, we propose InterCLIP-MEP, a novel framework for multi-modal sarcasm detection. Specifically, we introduce an Interactive CLIP (InterCLIP) as the backbone to extract text-image representations, enhancing them by embedding cross-modality information directly within each encoder, thereby improving the representations to capture text-image interactions better. Furthermore, an efficient training strategy is designed to adapt InterCLIP for our proposed Memory-Enhanced Predictor (MEP). MEP uses a dynamic, fixed-length dual-channel memory to store historical knowledge of valuable test samples during inference. It then leverages this memory as a non-parametric classifier to derive the final prediction, offering a more robust recognition of multi-modal sarcasm. Experiments demonstrate that InterCLIP-MEP achieves state-of-the-art performance on the MMSD2.0 benchmark, with an accuracy improvement of 1.08% and an F1 score improvement of 1.51% over the previous best method. Code and data are available at https://github.com/CoderChen01/InterCLIP-MEP.
Abstract（参考訳）: ソーシャルメディアにおけるサルカズムの頻度は、テキストと画像の組み合わせを通して伝えられ、感情分析と意図的マイニングにおいて重要な課題が提示される。既存のマルチモーダルサルカズム検出法は、画像とテキストの相互作用から生じる複雑なサーカシックな手がかりを効果的に捉えるのに苦労するため、性能を過大評価することが証明されている。これらの問題に対処するため,マルチモーダルサルカズム検出のための新しいフレームワークであるInterCLIP-MEPを提案する。具体的には,対話型CLIP (InterCLIP) をバックボーンとして導入し,テキストイメージの表現を抽出し,各エンコーダに直接モダリティ情報を埋め込むことにより,テキストイメージのインタラクションをよりよくキャプチャするための表現を改善する。さらに、提案したメモリ拡張予測器(MEP)にInterCLIPを適用するための効率的なトレーニング戦略を設計する。 MEPは動的で固定長のデュアルチャネルメモリを使用して、推論中に貴重なテストサンプルの履歴情報を格納する。その後、このメモリを非パラメトリック分類器として利用して最終的な予測を導き、マルチモーダルサルカズムをより堅牢に認識する。実験により,InterCLIP-MEPはMMSD2.0ベンチマークの最先端性能を実現し,精度は1.08%,F1スコアは1.51%向上した。コードとデータはhttps://github.com/CoderChen01/InterCLIP-MEPで公開されている。

関連論文リスト

METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文参考訳（メタデータ） (2025-07-22T03:42:51Z)
Rethinking Multimodal Sentiment Analysis: A High-Accuracy, Simplified Fusion Architecture [2.3272964989267626]
本稿では,発話レベルの感情分類に適した,軽量かつ効果的な融合型ディープラーニングモデルを提案する。我々のアプローチは、注意深く機能エンジニアリングとモジュール設計を行うことで、より単純な融合戦略がより複雑なモデルより優れているか、あるいは一致しているかを示します。
論文参考訳（メタデータ） (2025-05-05T02:31:11Z)
RCLMuFN: Relational Context Learning and Multiplex Fusion Network for Multimodal Sarcasm Detection [1.023096557577223]
マルチモーダルサルカズム検出のための関係文脈学習と多重化融合ネットワーク(RCLMuFN)を提案する。まず,4つの特徴抽出器を用いて,原文や画像から特徴を包括的に抽出する。次に,関係文脈学習モジュールを用いて,テキストや画像の文脈情報を学習する。
論文参考訳（メタデータ） (2024-12-17T15:29:31Z)
AMuSeD: An Attentive Deep Neural Network for Multimodal Sarcasm Detection Incorporating Bi-modal Data Augmentation [11.568176591294746]
AMuSeD (bi-modal data augmentation を用いたMUltimodal Sarcasm dEtection の深部ニューラルネットワーク) を提案する。このアプローチでは,Multimodal Sarcasm Detection dataset (MUStARD) を用いて,2段階のバイモーダルデータ拡張戦略を導入する。第2フェーズでは、サルカシックなイントネーションを維持するために特別に調整された、FastSpeech 2ベースの音声合成システムを洗練する。
論文参考訳（メタデータ） (2024-12-13T12:42:51Z)
Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。 IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-24T09:09:20Z)
GCM-Net: Graph-enhanced Cross-Modal Infusion with a Metaheuristic-Driven Network for Video Sentiment and Emotion Analysis [2.012311338995539]
本稿では,発話からのマルチモーダルな文脈情報を活用し,メタヒューリスティックなアルゴリズムを用いて発話レベルの感情と感情予測を学習する新しい枠組みを提案する。提案手法の有効性を示すため,我々は3つの顕著なマルチモーダル・ベンチマーク・データセットについて広範な評価を行った。
論文参考訳（メタデータ） (2024-10-02T10:07:48Z)
Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文参考訳（メタデータ） (2024-07-23T02:23:51Z)
RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。本稿では,MLLMの検索とランク付けのための拡張手法を提案する。提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文参考訳（メタデータ） (2024-03-20T17:59:55Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Improving Adversarial Robustness of Masked Autoencoders via Test-time Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文参考訳（メタデータ） (2023-08-20T16:27:17Z)
Towards Model-Size Agnostic, Compute-Free, Memorization-based Inference of Deep Learning [5.41530201129053]
本稿では,新しい暗記ベース推論(MBI)を提案する。具体的には、リカレント・アテンション・モデル(RAM)の推論機構に着目します。低次元のスリープ性を活用することで、我々の推論手順は、スリープ位置、パッチベクトルなどからなるキー値対をテーブルに格納する。計算は、テーブルを利用してキーと値のペアを読み出し、暗記による計算自由推論を実行することにより、推論中に妨げられる。
論文参考訳（メタデータ） (2023-07-14T21:01:59Z)
SCMM: Calibrating Cross-modal Representations for Text-Based Person Search [43.17325362167387]
テキストベースの人探索(TBPS)はIoT(Internet of Things)領域において重要なタスクである。クロスモーダルTBPSタスクでは、共通空間においてよく分散された表現を得ることが重要である。本稿では,Sew Embedding and Masked Modeling (SCMM)を提案する。
論文参考訳（メタデータ） (2023-04-05T07:50:16Z)
CyCLIP: Cyclic Contrastive Language-Image Pretraining [34.588147979731374]
ペア画像テキストデータに対するコントラスト表現学習の最近の進歩は、ゼロショット分類と分布ロバスト性のための最先端性能を達成するCLIPのようなモデルにつながっている。我々は、標準のコントラスト目的によって学習された画像とテキストの表現が交換不可能であり、不整合な下流予測につながることを実証した。画像やテキスト空間で幾何学的に一貫した表現を明示的に最適化するコントラスト表現学習フレームワークであるCyCLIPを提案する。
論文参考訳（メタデータ） (2022-05-28T15:31:17Z)
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文参考訳（メタデータ） (2022-04-15T12:34:47Z)
Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-14T13:55:33Z)
MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文参考訳（メタデータ） (2021-10-27T09:57:00Z)
Multimodal Learning using Optimal Transport for Sarcasm and Humor Detection [76.62550719834722]
会話ビデオと画像テキストのペアからマルチモーダルサルカズムとユーモアを検出する。本稿では,モーダル内対応を利用したマルチモーダル学習システム MuLOT を提案する。 3つのベンチマークデータセット上で,マルチモーダルサルカズムとユーモア検出のためのアプローチを検証した。
論文参考訳（メタデータ） (2021-10-21T07:51:56Z)
Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。 2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。 6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文参考訳（メタデータ） (2021-08-18T14:14:22Z)
FiLMing Multimodal Sarcasm Detection with Attention [0.7340017786387767]
サルカスムの検出は、意図された意味がその表面的な意味によって示されるものと異なる自然言語表現を特定する。本稿では,入力テキストと画像属性のコンテキスト不整合を組み込むために,RoBERTaモデルとコアテンション層を用いた新しいアーキテクチャを提案する。提案手法は,Twitterのマルチモーダル検出データセットの6.14%のF1スコアにおいて,既存の最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-08-09T06:33:29Z)
EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文参考訳（メタデータ） (2021-06-21T10:47:26Z)
Moving Towards Centers: Re-ranking with Attention and Memory for Re-identification [18.539658212171062]
リグレードは、コンテキスト情報を利用して、人物または車両の再識別(re-ID)の初期ランキングリストを最適化する本論文では,プローブと近傍試料の相関を予測するための再ランクネットワークを提案する。
論文参考訳（メタデータ） (2021-05-04T12:14:30Z)
Memory Group Sampling Based Online Action Recognition Using Kinetic Skeleton Features [4.674689979981502]
本稿では,オンライン行動認識問題を扱うための2つの中核的アイデアを提案する。まず, 空間的特徴と時間的特徴を組み合わせることで, 行動の描写を行う。次に,従来の動作フレームと現在の動作フレームを組み合わせたメモリグループサンプリング手法を提案する。第3に、改良された1D CNNネットワークを使用して、サンプルフレームの機能をトレーニングし、テストする。
論文参考訳（メタデータ） (2020-11-01T16:43:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。