論文の概要: M-QUEST -- Meme Question-Understanding Evaluation on Semantics and Toxicity
- arxiv url: http://arxiv.org/abs/2603.03315v1
- Date: Mon, 09 Feb 2026 16:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.143021
- Title: M-QUEST -- Meme Question-Understanding Evaluation on Semantics and Toxicity
- Title(参考訳): M-QUEST -- セマンティックスと毒性に関するミーム質問-
- Authors: Stefano De Giorgis, Ting-Chih Chen, Filip Ilievski,
- Abstract要約: 本稿では,ミームからの自動知識抽出のためのセマンティックフレームワークとそれに対応するベンチマークを提案する。
このフレームワークは、meme toxicityアセスメントに関する常識的な質問と回答のペアでベンチマークを生成する半自動プロセスのガイドである。
結果のベンチマークM-QUESTは307のミームに対して609の質問応答ペアで構成されている。
- 参考スコア(独自算出の注目度): 10.944605467795848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Internet memes are a powerful form of online communication, yet their nature and reliance on commonsense knowledge make toxicity detection challenging. Identifying key features for meme interpretation and understanding, is a crucial task. Previous work has been focused on some elements contributing to the meaning, such as the Textual dimension via OCR, the Visual dimension via object recognition, upper layers of meaning like the Emotional dimension, Toxicity detection via proxy variables, such as hate speech detection, and sentiment analysis. Nevertheless, there is still a lack of an overall architecture able to formally identify elements contributing to the meaning of a meme, and be used in the sense-making process. In this work, we present a semantic framework and a corresponding benchmark for automatic knowledge extraction from memes. First, we identify the necessary dimensions to understand and interpret a meme: Textual material, Visual material, Scene, Background Knowledge, Emotion, Semiotic Projection, Analogical Mapping, Overall Intent, Target Community, and Toxicity Assessment. Second, the framework guides a semi-automatic process of generating a benchmark with commonsense question-answer pairs about meme toxicity assessment and its underlying reason. The resulting benchmark M-QUEST consists of 609 question-answer pairs for 307 memes. Thirdly, we evaluate eight open-source large language models on their ability to correctly solve M-QUEST. Our results show that current models' commonsense reasoning capabilities for toxic meme interpretation vary depending on the dimension and architecture. Models with instruction tuning and reasoning capabilities significantly outperform the others, though pragmatic inference questions remain challenging. We release code, benchmark, and prompts to support future research intersecting multimodal content safety and commonsense reasoning.
- Abstract(参考訳): インターネットミームは、オンラインコミュニケーションの強力な形態であるが、その性質とコモンセンス知識への依存は、毒性の検出を困難にしている。
ミームの解釈と理解のための重要な特徴を特定することは、重要なタスクです。
これまでの研究は、OCRによるテクスト次元、オブジェクト認識による視覚次元、感情次元のような意味の上位層、ヘイトスピーチ検出のようなプロキシ変数による毒性検出、感情分析など、意味に寄与するいくつかの要素に焦点を当ててきた。
それでも、ミームの意味に寄与する要素を正式に識別し、センスメイキングプロセスで使用できる全体的なアーキテクチャがまだ存在しない。
本研究では,ミームからの自動知識抽出のためのセマンティック・フレームワークとそれに対応するベンチマークを提案する。
まず,テキスト素材,ビジュアルマテリアル,シーン,背景知識,感情,セメティック投影,アナロジカルマッピング,総合インテント,ターゲットコミュニティ,トキシシティアセスメントなど,ミームの理解と解釈に必要な次元を同定する。
第二に、このフレームワークは、ミーム毒性の評価とその根底にある理由について、常識的な質問応答ペアでベンチマークを生成する半自動プロセスのガイドとなる。
結果のベンチマークM-QUESTは307のミームに対して609の質問応答ペアで構成されている。
第3に、M-QUESTを正しく解く能力に基づいて、オープンソースの8つの大言語モデルを評価する。
この結果から,現行モデルにおける有毒なミーム解釈のための常識推論能力は,寸法や構造によって異なることが明らかとなった。
インストラクションチューニングと推論能力を持つモデルは、実用的推論の問題は依然として難しいが、他のモデルよりも大幅に優れている。
我々は、マルチモーダルコンテンツ安全性と常識推論を交差する将来の研究を支援するために、コード、ベンチマーク、およびプロンプトをリリースする。
関連論文リスト
- Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities? [61.533560295383786]
Unified Multimodal Large Language Models (U-MLLM) は、単一のアーキテクチャ内で理解と生成を統合する。
我々は,U-MLLMが画像のモダリティにおいて同じ結果をレンダリングするために必要な場合,意味的等価性を維持することができないことを観察する。
VGUBenchは、推論ロジックを生成の忠実性から切り離すためのフレームワークである。
論文 参考訳(メタデータ) (2026-02-27T06:23:56Z) - Just KIDDIN: Knowledge Infusion and Distillation for Detection of INdecent Memes [8.42736066868944]
本稿では,LVLM(Large Visual Language Models)の知識蒸留(KD)と知識注入を統合し,有害度検出性能を向上させる新しいフレームワークを提案する。
提案手法は,コンパクトなVLMフレームワーク内で注入可能な大規模コモンセンス知識グラフ(KG)であるConceptNetから,サブ知識グラフを抽出する。
2つのヘイトスピーチベンチマークデータセットによる実験結果から,最先端のベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-11-19T02:39:28Z) - Toxic Memes: A Survey of Computational Perspectives on the Detection and Explanation of Meme Toxicities [0.26624014064407714]
有毒なミームの計算解析に関する研究は、過去5年間に大きく成長してきた。
計算有毒なミーム分析に関する3つの調査は、2022年までしか公表されていない。
我々の研究は、有害なミームに関するコンテンツベースの計算的視点を調査することによって、このギャップを埋める。
論文 参考訳(メタデータ) (2024-06-11T15:22:48Z) - MemeMQA: Multimodal Question Answering for Memes via Rationale-Based Inferencing [53.30190591805432]
構造化された質問に対する正確な応答を求めるマルチモーダルな質問応答フレームワークであるMemeMQAを紹介する。
また,MemeMQAに対処する新しい2段階マルチモーダルフレームワークであるARSENALを提案する。
論文 参考訳(メタデータ) (2024-05-18T07:44:41Z) - SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - What do you MEME? Generating Explanations for Visual Semantic Role
Labelling in Memes [42.357272117919464]
ミームにおける視覚的意味的役割のラベル付けに関する説明を生成する新しいタスク-EXCLAIMを導入する。
この目的のために,3種類のエンティティに対する意味的役割の自然言語説明を提供する新しいデータセットであるExHVVをキュレートする。
また,EXCLAIMを最適に扱える新しいマルチモーダル・マルチタスク学習フレームワークであるLUMENを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:21:36Z) - A computational model implementing subjectivity with the 'Room Theory'.
The case of detecting Emotion from Text [68.8204255655161]
本研究は,テキスト分析における主観性と一般的文脈依存性を考慮した新しい手法を提案する。
単語間の類似度を用いて、ベンチマーク中の要素の相対的関連性を抽出することができる。
この方法は、主観的評価がテキストの相対値や意味を理解するために関係しているすべてのケースに適用できる。
論文 参考訳(メタデータ) (2020-05-12T21:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。