論文の概要: What do you MEME? Generating Explanations for Visual Semantic Role
Labelling in Memes
- arxiv url: http://arxiv.org/abs/2212.00715v2
- Date: Tue, 20 Dec 2022 14:29:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 12:46:19.794018
- Title: What do you MEME? Generating Explanations for Visual Semantic Role
Labelling in Memes
- Title(参考訳): MEMEとは何か?
ミームにおける視覚的意味的役割ラベリングのための説明の生成
- Authors: Shivam Sharma, Siddhant Agarwal, Tharun Suresh, Preslav Nakov, Md.
Shad Akhtar, Tanmoy Chakraborty
- Abstract要約: ミームにおける視覚的意味的役割のラベル付けに関する説明を生成する新しいタスク-EXCLAIMを導入する。
この目的のために,3種類のエンティティに対する意味的役割の自然言語説明を提供する新しいデータセットであるExHVVをキュレートする。
また,EXCLAIMを最適に扱える新しいマルチモーダル・マルチタスク学習フレームワークであるLUMENを提案する。
- 参考スコア(独自算出の注目度): 42.357272117919464
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Memes are powerful means for effective communication on social media. Their
effortless amalgamation of viral visuals and compelling messages can have
far-reaching implications with proper marketing. Previous research on memes has
primarily focused on characterizing their affective spectrum and detecting
whether the meme's message insinuates any intended harm, such as hate, offense,
racism, etc. However, memes often use abstraction, which can be elusive. Here,
we introduce a novel task - EXCLAIM, generating explanations for visual
semantic role labeling in memes. To this end, we curate ExHVV, a novel dataset
that offers natural language explanations of connotative roles for three types
of entities - heroes, villains, and victims, encompassing 4,680 entities
present in 3K memes. We also benchmark ExHVV with several strong unimodal and
multimodal baselines. Moreover, we posit LUMEN, a novel multimodal, multi-task
learning framework that endeavors to address EXCLAIM optimally by jointly
learning to predict the correct semantic roles and correspondingly to generate
suitable natural language explanations. LUMEN distinctly outperforms the best
baseline across 18 standard natural language generation evaluation metrics. Our
systematic evaluation and analyses demonstrate that characteristic multimodal
cues required for adjudicating semantic roles are also helpful for generating
suitable explanations.
- Abstract(参考訳): ミームはソーシャルメディア上で効果的なコミュニケーションのための強力な手段である。
バイラルなビジュアルと魅力的なメッセージの融合は、適切なマーケティングに大きく影響する可能性がある。
ミームに関するこれまでの研究は、彼らの感情的なスペクトルの特徴付けと、ミームのメッセージが、憎しみ、犯罪、人種差別など、意図した損害を与えるかどうかの検出に重点を置いてきた。
しかし、ミームはしばしば抽象的(抽象的)を使う。
ここでは,ミームにおける視覚的意味的役割ラベリングのための説明を生成する新しいタスクについて紹介する。
この目的のために,3Kミームに存在する4,680個のエンティティを含む3種類のエンティティ(ヒーロー,悪役,被害者)について,意味的役割を自然言語で説明する新しいデータセットであるExHVをキュレートする。
また、ExHVVをいくつかの強力な単モーダルおよびマルチモーダルベースラインでベンチマークする。
さらに, 適切な意味的役割を予測し, 適切な自然言語説明を生成するために, 協調学習により, 最適な評価に最善を尽くす, 新たなマルチモーダルマルチタスク学習フレームワーク lumen を提案する。
LUMENは18の標準自然言語生成評価指標で明らかに最高のベースラインを上回っている。
体系的な評価と分析により,意味的役割を判断するのに必要な特徴的マルチモーダル手がかりが,適切な説明を生成するのに有用であることが示された。
関連論文リスト
- XMeCap: Meme Caption Generation with Sub-Image Adaptability [53.2509590113364]
社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
我々は、教師付き微調整と強化学習を採用するtextscXMeCapフレームワークを紹介した。
textscXMeCapは、シングルイメージのミームの平均評価スコアが75.85で、マルチイメージのミームは66.32で、それぞれ3.71%と4.82%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-07-24T10:51:46Z) - MemeMQA: Multimodal Question Answering for Memes via Rationale-Based Inferencing [53.30190591805432]
構造化された質問に対する正確な応答を求めるマルチモーダルな質問応答フレームワークであるMemeMQAを紹介する。
また,MemeMQAに対処する新しい2段階マルチモーダルフレームワークであるARSENALを提案する。
論文 参考訳(メタデータ) (2024-05-18T07:44:41Z) - Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes
Through Multimodal Explanations [48.82168723932981]
Em MultiBully-Exは、コード混在型サイバーいじめミームからマルチモーダルな説明を行うための最初のベンチマークデータセットである。
ミームの視覚的およびテキスト的説明のために,コントラスト言語-画像事前学習 (CLIP) アプローチが提案されている。
論文 参考訳(メタデータ) (2024-01-18T11:24:30Z) - PromptMTopic: Unsupervised Multimodal Topic Modeling of Memes using
Large Language Models [7.388466146105024]
テキストと視覚の両方からトピックを学習する新しいマルチモーダルプロンプトベースモデルであるtextPromptMTopicを提案する。
本モデルは,テキストと視覚的モダリティ間の意味的相互作用を考慮して,ミームから学習したトピックを効果的に抽出し,クラスタ化する。
我々の研究は、今日の社会における重要なコミュニケーション形態であるミームの話題とテーマの理解に寄与する。
論文 参考訳(メタデータ) (2023-12-11T03:36:50Z) - Beneath the Surface: Unveiling Harmful Memes with Multimodal Reasoning
Distilled from Large Language Models [17.617187709968242]
既存の有害なミーム検出手法は、端から端までの分類方法において、表面的な害を示す信号のみを認識する。
本稿では,多モーダル融合を改善するために,大規模言語モデルから合理的な思考を学習するための新しい生成フレームワークを提案する。
提案手法は,有害ミーム検出タスクにおける最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-09T01:59:11Z) - MEMEX: Detecting Explanatory Evidence for Memes via Knowledge-Enriched
Contextualization [31.209594252045566]
本稿では,ミームと関連する文書を与えられた新しいタスクMEMEXを提案し,ミームの背景を簡潔に説明するコンテキストを掘り下げることを目的とする。
MCCをベンチマークするために,共通感覚に富んだミーム表現を用いたマルチモーダル・ニューラル・フレームワークであるMIMEと,ミームとコンテキスト間の相互モーダルなセマンティック依存関係を捉える階層的アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-25T10:19:35Z) - Characterizing the Entities in Harmful Memes: Who is the Hero, the
Villain, the Victim? [39.55435707149863]
我々は、ミームが参照するエンティティを栄光し、悪用し、または犠牲にするかどうかを理解することを目指している。
提案モデルでは,最高のベースラインに対して4%,最も競合するスタンドアローンのサブミッションに対して1%の改善が達成されている。
論文 参考訳(メタデータ) (2023-01-26T16:55:15Z) - Detecting and Understanding Harmful Memes: A Survey [48.135415967633676]
我々は有害なミームに焦点を当てた総合的な調査を行っている。
興味深い発見の1つは、多くの有害ミームが実際には研究されていないことである。
別の観察では、ミームは異なる言語で再パッケージ化することでグローバルに伝播し、多言語化することもできる。
論文 参考訳(メタデータ) (2022-05-09T13:43:27Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。