論文の概要: Decoding Memes: Benchmarking Narrative Role Classification across Multilingual and Multimodal Models
- arxiv url: http://arxiv.org/abs/2506.23122v1
- Date: Sun, 29 Jun 2025 07:12:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.727162
- Title: Decoding Memes: Benchmarking Narrative Role Classification across Multilingual and Multimodal Models
- Title(参考訳): Decoding Memes:マルチ言語モデルとマルチモーダルモデル間のナラティブロール分類のベンチマーク
- Authors: Shivam Sharma, Tanmoy Chakraborty,
- Abstract要約: 本研究は,インターネットミームにおける物語的役割の特定という課題について考察する。
元々は'他'クラスにスキューされたアノテーション付きデータセットの上に構築される。
包括的語彙および構造解析は、実際のミームで使われるニュアンス、文化特化、文脈に富んだ言語を強調している。
- 参考スコア(独自算出の注目度): 26.91963265869296
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work investigates the challenging task of identifying narrative roles - Hero, Villain, Victim, and Other - in Internet memes, across three diverse test sets spanning English and code-mixed (English-Hindi) languages. Building on an annotated dataset originally skewed toward the 'Other' class, we explore a more balanced and linguistically diverse extension, originally introduced as part of the CLEF 2024 shared task. Comprehensive lexical and structural analyses highlight the nuanced, culture-specific, and context-rich language used in real memes, in contrast to synthetically curated hateful content, which exhibits explicit and repetitive lexical markers. To benchmark the role detection task, we evaluate a wide spectrum of models, including fine-tuned multilingual transformers, sentiment and abuse-aware classifiers, instruction-tuned LLMs, and multimodal vision-language models. Performance is assessed under zero-shot settings using precision, recall, and F1 metrics. While larger models like DeBERTa-v3 and Qwen2.5-VL demonstrate notable gains, results reveal consistent challenges in reliably identifying the 'Victim' class and generalising across cultural and code-mixed content. We also explore prompt design strategies to guide multimodal models and find that hybrid prompts incorporating structured instructions and role definitions offer marginal yet consistent improvements. Our findings underscore the importance of cultural grounding, prompt engineering, and multimodal reasoning in modelling subtle narrative framings in visual-textual content.
- Abstract(参考訳): 本研究は,インターネットミームにおけるナラティブロール(Hero, Villain, Victim, and Other)の特定という課題について,英語とコード混合(Hindi)言語にまたがる3つのテストセットについて検討する。
アノテーション付きデータセットを最初に'他'クラスにスキューした上で,CLEF 2024共有タスクの一部として導入された,よりバランスのとれた言語的に多様な拡張について検討する。
包括的語彙的および構造的分析は、明示的で反復的な語彙的マーカーを示す、合成的に硬化した憎悪的な内容とは対照的に、実際のミームで使われるニュアンス、文化特化、文脈に富んだ言語を強調している。
役割検出タスクをベンチマークするために、細調整多言語変換器、感情・悪用認識分類器、命令調整LLM、マルチモーダル視覚言語モデルなど、幅広いモデルの評価を行った。
パフォーマンスは、精度、リコール、F1メトリクスを使用してゼロショット設定で評価される。
DeBERTa-v3やQwen2.5-VLのような大きなモデルでは顕著な利益が得られたが、結果として、"Victim"クラスを確実に識別し、文化とコードの混在するコンテンツを一般化するという、一貫した課題が浮かび上がっている。
また、マルチモーダルモデルを導くためのプロンプト設計戦略についても検討し、構造化命令とロール定義を組み込んだハイブリッドプロンプトが、極端に一貫した改善をもたらすことを発見した。
本研究は,視覚・テクスチャコンテンツにおける微妙な物語のフレーミングをモデル化する上で,文化基盤,迅速なエンジニアリング,マルチモーダル推論の重要性を浮き彫りにした。
関連論文リスト
- Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation [45.551223552275424]
視覚言語翻訳は、画像に埋め込まれた多言語テキストを正確に認識する必要がある課題である。
本稿では,データ品質,モデルアーキテクチャ,評価指標の3つの重要な視点からVLTを総合的に検討する。
論文 参考訳(メタデータ) (2025-06-13T14:23:38Z) - Comparing LLM Text Annotation Skills: A Study on Human Rights Violations in Social Media Data [2.812898346527047]
本研究では,ロシア語とウクライナ語におけるソーシャルメディア投稿のゼロショットおよび少数ショットアノテーションに対する大規模言語モデル(LLM)の機能について検討した。
これらのモデルの有効性を評価するため、それらのアノテーションは、人間の二重注釈付きラベルのゴールドスタンダードセットと比較される。
この研究は、各モデルが示すエラーと不一致のユニークなパターンを探求し、その強み、制限、言語間適応性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-05-15T13:10:47Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Exploring the Maze of Multilingual Modeling [2.0849578298972835]
我々は,mBERT,XLM-R,GPT-3の3つの言語モデルについて総合評価を行った。
その結果,言語固有の事前学習データの量はモデル性能において重要な役割を担っているが,汎用リソースの可用性,言語ファミリ,スクリプトタイプといった他の要因も重要な特徴であることがわかった。
論文 参考訳(メタデータ) (2023-10-09T04:48:14Z) - Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文 参考訳(メタデータ) (2023-08-24T16:17:40Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。