論文の概要: MemeMQA: Multimodal Question Answering for Memes via Rationale-Based Inferencing
- arxiv url: http://arxiv.org/abs/2405.11215v1
- Date: Sat, 18 May 2024 07:44:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 18:48:01.359111
- Title: MemeMQA: Multimodal Question Answering for Memes via Rationale-Based Inferencing
- Title(参考訳): MemeMQA: Rationaleベースの推論によるミームに対するマルチモーダル質問回答
- Authors: Siddhant Agarwal, Shivam Sharma, Preslav Nakov, Tanmoy Chakraborty,
- Abstract要約: 構造化された質問に対する正確な応答を求めるマルチモーダルな質問応答フレームワークであるMemeMQAを紹介する。
また,MemeMQAに対処する新しい2段階マルチモーダルフレームワークであるARSENALを提案する。
- 参考スコア(独自算出の注目度): 53.30190591805432
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Memes have evolved as a prevalent medium for diverse communication, ranging from humour to propaganda. With the rising popularity of image-focused content, there is a growing need to explore its potential harm from different aspects. Previous studies have analyzed memes in closed settings - detecting harm, applying semantic labels, and offering natural language explanations. To extend this research, we introduce MemeMQA, a multimodal question-answering framework aiming to solicit accurate responses to structured questions while providing coherent explanations. We curate MemeMQACorpus, a new dataset featuring 1,880 questions related to 1,122 memes with corresponding answer-explanation pairs. We further propose ARSENAL, a novel two-stage multimodal framework that leverages the reasoning capabilities of LLMs to address MemeMQA. We benchmark MemeMQA using competitive baselines and demonstrate its superiority - ~18% enhanced answer prediction accuracy and distinct text generation lead across various metrics measuring lexical and semantic alignment over the best baseline. We analyze ARSENAL's robustness through diversification of question-set, confounder-based evaluation regarding MemeMQA's generalizability, and modality-specific assessment, enhancing our understanding of meme interpretation in the multimodal communication landscape.
- Abstract(参考訳): ミームはユーモアからプロパガンダまで多様なコミュニケーションのための主流の媒体として進化してきた。
画像中心のコンテンツの人気が高まる中、さまざまな側面から潜在的な害を探求する必要性が高まっている。
これまでの研究では、害を検出し、セマンティックラベルを適用し、自然言語の説明を提供するという、閉じた環境でミームを分析してきた。
この研究をさらに進めるために,構造化された質問に対する正確な応答を誘導し,一貫性のある説明を提供しながら,多モーダルな質問応答フレームワークであるMemeMQAを紹介した。
MemeMQACorpusは1,122のミームに関連する1,880の質問と対応する回答-説明ペアを含む新しいデータセットである。
さらに,LSMの推論能力を活用してMemeMQAに対処する新しい2段階マルチモーダルフレームワークであるARSENALを提案する。
我々は,競合するベースラインを用いてMemeMQAをベンチマークし,その優位性を実証した。
我々は,ARSENALのロバスト性について,質問セットの多様化,MemeMQAの一般化可能性に関する共同設立者による評価,モダリティ特異的評価を通じて分析し,マルチモーダルコミュニケーションの場におけるミーム解釈の理解を深める。
関連論文リスト
- Asking Multimodal Clarifying Questions in Mixed-Initiative
Conversational Search [89.1772985740272]
混合開始型会話検索システムでは、質問を明確にすることで、意図を単一のクエリで表現するのに苦労するユーザを支援する。
マルチモーダル情報が関係するシナリオでは、非テクスチャ情報を用いることで、明確化のプロセスを改善することができると仮定する。
質問を明確にする4k以上のマルチモーダルを含むMelonというデータセットを収集し、14k以上の画像で濃縮する。
クエリの明確化フェーズにおけるマルチモーダルコンテンツの重要性を理解するために,いくつかの解析を行った。
論文 参考訳(メタデータ) (2024-02-12T16:04:01Z) - WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge [73.76722241704488]
大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。
我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-01-12T16:08:07Z) - MEMEX: Detecting Explanatory Evidence for Memes via Knowledge-Enriched
Contextualization [31.209594252045566]
本稿では,ミームと関連する文書を与えられた新しいタスクMEMEXを提案し,ミームの背景を簡潔に説明するコンテキストを掘り下げることを目的とする。
MCCをベンチマークするために,共通感覚に富んだミーム表現を用いたマルチモーダル・ニューラル・フレームワークであるMIMEと,ミームとコンテキスト間の相互モーダルなセマンティック依存関係を捉える階層的アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-25T10:19:35Z) - Answering Questions by Meta-Reasoning over Multiple Chains of Thought [53.55653437903948]
MCR(Multi-Chain Reasoning)は,大規模言語モデルに対して,複数の思考連鎖に対するメタ推論を促す手法である。
MCRは、異なる推論連鎖を調べ、それら間で情報を混合し、説明を生成し、答えを予測する際に最も関係のある事実を選択する。
論文 参考訳(メタデータ) (2023-04-25T17:27:37Z) - Enhancing Multimodal Entity and Relation Extraction with Variational
Information Bottleneck [12.957002659910456]
マルチモーダルなエンティティ認識(MNER)とマルチモーダルな関係抽出(MRE)について検討する。
MNERとMREの中核は、テキストセマンティクスを強化するために明らかな視覚情報を統合することである。
MMIB(Information Bottleneck)を用いたマルチモーダル表現学習によるMNERとMREの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T09:32:25Z) - What do you MEME? Generating Explanations for Visual Semantic Role
Labelling in Memes [42.357272117919464]
ミームにおける視覚的意味的役割のラベル付けに関する説明を生成する新しいタスク-EXCLAIMを導入する。
この目的のために,3種類のエンティティに対する意味的役割の自然言語説明を提供する新しいデータセットであるExHVVをキュレートする。
また,EXCLAIMを最適に扱える新しいマルチモーダル・マルチタスク学習フレームワークであるLUMENを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:21:36Z) - Detecting and Understanding Harmful Memes: A Survey [48.135415967633676]
我々は有害なミームに焦点を当てた総合的な調査を行っている。
興味深い発見の1つは、多くの有害ミームが実際には研究されていないことである。
別の観察では、ミームは異なる言語で再パッケージ化することでグローバルに伝播し、多言語化することもできる。
論文 参考訳(メタデータ) (2022-05-09T13:43:27Z) - A Multimodal Framework for the Detection of Hateful Memes [16.7604156703965]
我々は憎しみのあるミームを検出するフレームワークの開発を目指している。
マルチモーダルとアンサンブル学習を促進するために,比較例のアップサンプリングの有効性を示す。
私たちの最良のアプローチは、UNITERベースのモデルのアンサンブルで構成され、80.53のAUROCスコアを達成し、Facebookが主催する2020 Hateful Memes Challengeのフェーズ2で4位になります。
論文 参考訳(メタデータ) (2020-12-23T18:37:11Z) - A Multimodal Memes Classification: A Survey and Open Research Issues [4.504833177846264]
多くのミームは、偽情報や憎悪を抑えるために自動検閲を必要とするソーシャルメディアプラットフォームに毎日アップロードされる。
本研究の目的は,視覚言語 (VL) のマルチモーダル問題と最先端解について,ミーム分類の包括的研究を行うことである。
論文 参考訳(メタデータ) (2020-09-17T16:13:21Z) - Multi-Stage Conversational Passage Retrieval: An Approach to Fusing Term
Importance Estimation and Neural Query Rewriting [56.268862325167575]
マルチステージアドホックIRシステムにクエリ再構成を組み込んだ会話経路検索(ConvPR)に取り組む。
本稿では,1項の重要度推定と2項のニューラルクエリ書き換えという2つの手法を提案する。
前者に対しては、周波数に基づく信号を用いて会話コンテキストから抽出した重要な用語を用いて会話クエリを拡張する。
後者では,会話クエリを,事前訓練されたシーケンス列列列モデルを用いて,自然な,スタンドアロンの,人間の理解可能なクエリに再構成する。
論文 参考訳(メタデータ) (2020-05-05T14:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。