Fugu-MT 論文翻訳(概要): FiLMing Multimodal Sarcasm Detection with Attention

論文の概要: FiLMing Multimodal Sarcasm Detection with Attention

arxiv url: http://arxiv.org/abs/2110.00416v1
Date: Mon, 9 Aug 2021 06:33:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-18 23:19:46.876830
Title: FiLMing Multimodal Sarcasm Detection with Attention
Title（参考訳）: 注意を伴うマルチモーダルサーカズム検出の撮影
Authors: Sundesh Gupta, Aditya Shah, Miten Shah, Laribok Syiemlieh, Chandresh Maurya
Abstract要約: サルカスムの検出は、意図された意味がその表面的な意味によって示されるものと異なる自然言語表現を特定する。本稿では,入力テキストと画像属性のコンテキスト不整合を組み込むために,RoBERTaモデルとコアテンション層を用いた新しいアーキテクチャを提案する。提案手法は,Twitterのマルチモーダル検出データセットの6.14%のF1スコアにおいて,既存の最先端手法よりも優れていることを示す。
参考スコア（独自算出の注目度）: 0.7340017786387767
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sarcasm detection identifies natural language expressions whose intended meaning is different from what is implied by its surface meaning. It finds applications in many NLP tasks such as opinion mining, sentiment analysis, etc. Today, social media has given rise to an abundant amount of multimodal data where users express their opinions through text and images. Our paper aims to leverage multimodal data to improve the performance of the existing systems for sarcasm detection. So far, various approaches have been proposed that uses text and image modality and a fusion of both. We propose a novel architecture that uses the RoBERTa model with a co-attention layer on top to incorporate context incongruity between input text and image attributes. Further, we integrate feature-wise affine transformation by conditioning the input image through FiLMed ResNet blocks with the textual features using the GRU network to capture the multimodal information. The output from both the models and the CLS token from RoBERTa is concatenated and used for the final prediction. Our results demonstrate that our proposed model outperforms the existing state-of-the-art method by 6.14% F1 score on the public Twitter multimodal sarcasm detection dataset.
Abstract（参考訳）: サーカズム検出は、その意味が表面的な意味によって暗示されるものと異なる自然言語表現を識別する。意見マイニングや感情分析など、多くのNLPタスクに応用されている。今日、ソーシャルメディアは大量のマルチモーダルデータをもたらし、ユーザーはテキストや画像を通じて意見を表現している。本稿では,マルチモーダルデータを活用し,既存システムの性能向上を図ることを目的とする。これまで、テキストと画像のモダリティと両方を融合させる様々なアプローチが提案されてきた。本稿では,入力テキストと画像属性のコンテキスト不整合を組み込むために,RoBERTaモデルとコアテンション層を用いた新しいアーキテクチャを提案する。さらに、入力画像をFiLMed ResNetブロックで条件付けし、GRUネットワークを用いたテキスト機能と統合し、マルチモーダル情報をキャプチャする。 RoBERTaのモデルとCLSトークンの両方からの出力は連結され、最終的な予測に使用される。以上の結果から,提案手法はTwitterのマルチモーダルサルカム検出データセットにおいて6.14%のF1スコアを達成できた。

関連論文リスト

FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens [56.752362642658504]
マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。本稿では,テキストと画像トークンの拡張語彙で動作する単一のトランスフォーマーモデルを提案する。本稿では,VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて,FuseLIPが他の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:27:12Z)
Multimodal Fake News Detection: MFND Dataset and Shallow-Deep Multitask Learning [22.494473679788396]
マルチモーダルニュースには豊富な情報が含まれており、ディープフェイク・モデリング・アタックの影響を受けやすい。最新の画像とテキスト生成手法に対抗するために,新しいマルチモーダルフェイクニュース検出データセット(MFND)を提案する。 MFNDには11の操作されたタイプがあり、高度に認証された偽ニュースを検出し、ローカライズするように設計されている。
論文参考訳（メタデータ） (2025-05-11T00:26:13Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
RCLMuFN: Relational Context Learning and Multiplex Fusion Network for Multimodal Sarcasm Detection [1.023096557577223]
マルチモーダルサルカズム検出のための関係文脈学習と多重化融合ネットワーク(RCLMuFN)を提案する。まず,4つの特徴抽出器を用いて,原文や画像から特徴を包括的に抽出する。次に,関係文脈学習モジュールを用いて,テキストや画像の文脈情報を学習する。
論文参考訳（メタデータ） (2024-12-17T15:29:31Z)
Multimodal Sentiment Analysis Based on BERT and ResNet [0.0]
BERTとResNetを組み合わせたマルチモーダル感情分析フレームワークが提案されている。 BERTは自然言語処理において強いテキスト表現能力を示しており、ResNetはコンピュータビジョンの分野で優れた画像特徴抽出性能を有している。パブリックデータセットMAVA-singleの実験結果によると、BERTやResNetのみを使用するシングルモーダルモデルと比較して、提案されたマルチモーダルモデルは精度とF1スコアを改善し、74.5%の精度に達した。
論文参考訳（メタデータ） (2024-12-04T15:55:20Z)
Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
Modelling Visual Semantics via Image Captioning to extract Enhanced Multi-Level Cross-Modal Semantic Incongruity Representation with Attention for Multimodal Sarcasm Detection [12.744170917349287]
本研究では,入力三重項を処理可能なマルチモーダルサルカズム検出のための新しいフレームワークを提案する。提案したモデルは、TwitterのマルチモーダルサルカムとMultiBullyデータセットでそれぞれ92.89%と64.48%の精度を達成する。
論文参考訳（メタデータ） (2024-08-05T16:07:31Z)
FSMR: A Feature Swapping Multi-modal Reasoning Approach with Joint Textual and Visual Clues [20.587249765287183]
Feature Swapping Multi-modal Reasoning (FSMR) モデルは、機能スワップによるマルチモーダル推論を強化するように設計されている。 FSMRにはマルチモーダル・クロスアテンション機構が組み込まれており、テキスト情報と視覚情報の共同モデリングを容易にする。 PMRデータセットの実験は、FSMRが最先端のベースラインモデルよりも優れていることを示している。
論文参考訳（メタデータ） (2024-03-29T07:28:50Z)
Few-shot Action Recognition with Captioning Foundation Models [61.40271046233581]
CapFSARは、テキストを手動でアノテートすることなく、マルチモーダルモデルの知識を利用するフレームワークである。 Transformerをベースとしたビジュアルテキストアグリゲーションモジュールはさらに、モーダル時間間の補完情報を組み込むように設計されている。複数の標準的な数ショットベンチマークの実験では、提案したCapFSARが既存の手法に対して好適に動作することを示した。
論文参考訳（メタデータ） (2023-10-16T07:08:39Z)
Multi-source Semantic Graph-based Multimodal Sarcasm Explanation Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。 TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。 TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文参考訳（メタデータ） (2023-06-29T03:26:10Z)
Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文参考訳（メタデータ） (2023-05-26T19:22:03Z)
Multimodal Fake News Detection with Adaptive Unimodal Representation Aggregation [28.564442206829625]
AURAは、適応的な一助表現アグリゲーションを備えたマルチモーダルフェイクニュース検出ネットワークである。我々は,一様および多様の表現に従って,粗いレベルの偽ニュース検出とクロスモーダルな共存学習を行う。 WeiboとGossipcopの実験は、AURAがいくつかの最先端のFNDスキームに勝つことを証明している。
論文参考訳（メタデータ） (2022-06-12T14:06:55Z)
Exploiting BERT For Multimodal Target SentimentClassification Through Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。 2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-08-03T18:02:38Z)
RpBERT: A Text-image Relation Propagation-based BERT Model for Multimodal NER [4.510210055307459]
マルチモーダルなエンティティ認識(MNER)は、ツイート中のNERの精度を向上させるために画像を利用している。マルチモーダルBERTモデルにテキスト-画像関係の伝搬法を導入する。 MNERデータセットをトレーニングするためのマルチタスクアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-05T02:45:30Z)
A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文参考訳（メタデータ） (2020-07-17T04:06:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。