論文の概要: MemeLens: Multilingual Multitask VLMs for Memes
- arxiv url: http://arxiv.org/abs/2601.12539v1
- Date: Sun, 18 Jan 2026 19:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.671757
- Title: MemeLens: Multilingual Multitask VLMs for Memes
- Title(参考訳): MemeLens: ミーム用多言語マルチタスクVLM
- Authors: Ali Ezzat Shahroor, Mohamed Bayan Kmainasi, Abul Hasnat, Dimitar Dimitrov, Giovanni Da San Martino, Preslav Nakov, Firoj Alam,
- Abstract要約: ミーム理解のための多言語・説明強調視覚言語モデル(VLM)を提案する。
私たちは、38の公開ミームデータセット、データセット固有のラベルを、害、ターゲット、具体的/実用的意図、影響にまたがる20ドルのタスクの共有分類に集約します。
この結果から,ロバストなミーム理解には多モーダルな訓練が必要であり,セマンティックなカテゴリ間でかなりの差異があり,モデルが統一された環境で訓練されるのではなく,個々のデータセットに微調整された場合,過度な特殊化に敏感であることが示唆された。
- 参考スコア(独自算出の注目度): 45.8232386994625
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Memes are a dominant medium for online communication and manipulation because meaning emerges from interactions between embedded text, imagery, and cultural context. Existing meme research is distributed across tasks (hate, misogyny, propaganda, sentiment, humour) and languages, which limits cross-domain generalization. To address this gap we propose MemeLens, a unified multilingual and multitask explanation-enhanced Vision Language Model (VLM) for meme understanding. We consolidate 38 public meme datasets, filter and map dataset-specific labels into a shared taxonomy of $20$ tasks spanning harm, targets, figurative/pragmatic intent, and affect. We present a comprehensive empirical analysis across modeling paradigms, task categories, and datasets. Our findings suggest that robust meme understanding requires multimodal training, exhibits substantial variation across semantic categories, and remains sensitive to over-specialization when models are fine-tuned on individual datasets rather than trained in a unified setting. We will make the experimental resources and datasets publicly available for the community.
- Abstract(参考訳): ミームは、埋め込みテキスト、画像、文化的な文脈の相互作用から意味が生まれるため、オンラインコミュニケーションと操作において支配的な媒体である。
既存のミーム研究は、ドメイン間の一般化を制限するタスク(憎悪、悪行、プロパガンダ、感情、ユーモア)と言語に分散している。
このギャップに対処するため,メメ理解のための多言語・多タスク説明強化視覚言語モデル(VLM)を提案する。
私たちは、38の公開ミームデータセット、データセット固有のラベルを、害、ターゲット、具体的/実用的意図、影響にまたがる20ドルのタスクの共有分類に集約します。
本稿では、モデリングパラダイム、タスクカテゴリ、データセットの総合的な経験分析について述べる。
この結果から,ロバストなミーム理解には多モーダルな訓練が必要であり,セマンティックなカテゴリ間でかなりの差異があり,モデルが統一された環境で訓練されるのではなく,個々のデータセットに微調整された場合,過度な特殊化に敏感であることが示唆された。
実験的なリソースとデータセットをコミュニティに公開します。
関連論文リスト
- Multilingual Diversity Improves Vision-Language Representations [97.16233528393356]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - PromptMTopic: Unsupervised Multimodal Topic Modeling of Memes using
Large Language Models [7.388466146105024]
テキストと視覚の両方からトピックを学習する新しいマルチモーダルプロンプトベースモデルであるtextPromptMTopicを提案する。
本モデルは,テキストと視覚的モダリティ間の意味的相互作用を考慮して,ミームから学習したトピックを効果的に抽出し,クラスタ化する。
我々の研究は、今日の社会における重要なコミュニケーション形態であるミームの話題とテーマの理解に寄与する。
論文 参考訳(メタデータ) (2023-12-11T03:36:50Z) - How to Solve Few-Shot Abusive Content Detection Using the Data We Actually Have [58.23138483086277]
この作業では、すでに持っているデータセットを活用し、虐待的な言語検出に関連する幅広いタスクをカバーしています。
私たちのゴールは、ターゲットドメインのトレーニング例を少しだけ使用して、新しいターゲットラベルセットや/または言語のために、安価にモデルを構築することです。
実験の結果、すでに存在するデータセットと、対象タスクのほんの数ショットしか使用していないモデルの性能が、モノリンガル言語と言語間で改善されていることがわかった。
論文 参考訳(メタデータ) (2023-05-23T14:04:12Z) - SemiMemes: A Semi-supervised Learning Approach for Multimodal Memes
Analysis [0.0]
SemiMemesは、自動エンコーダと分類タスクを組み合わせて、リソース豊富な未ラベルデータを利用する新しいトレーニング手法である。
本研究は、他のマルチモーダル・セミ教師あり学習モデルよりも優れた、マルチモーダル・セミ教師あり学習手法を提案する。
論文 参考訳(メタデータ) (2023-03-31T11:22:03Z) - What do you MEME? Generating Explanations for Visual Semantic Role
Labelling in Memes [42.357272117919464]
ミームにおける視覚的意味的役割のラベル付けに関する説明を生成する新しいタスク-EXCLAIMを導入する。
この目的のために,3種類のエンティティに対する意味的役割の自然言語説明を提供する新しいデータセットであるExHVVをキュレートする。
また,EXCLAIMを最適に扱える新しいマルチモーダル・マルチタスク学習フレームワークであるLUMENを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:21:36Z) - Detecting and Understanding Harmful Memes: A Survey [48.135415967633676]
我々は有害なミームに焦点を当てた総合的な調査を行っている。
興味深い発見の1つは、多くの有害ミームが実際には研究されていないことである。
別の観察では、ミームは異なる言語で再パッケージ化することでグローバルに伝播し、多言語化することもできる。
論文 参考訳(メタデータ) (2022-05-09T13:43:27Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。