論文の概要: Are Large Language Models Chronically Online Surfers? A Dataset for Chinese Internet Meme Explanation
- arxiv url: http://arxiv.org/abs/2510.00567v1
- Date: Wed, 01 Oct 2025 06:41:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.422148
- Title: Are Large Language Models Chronically Online Surfers? A Dataset for Chinese Internet Meme Explanation
- Title(参考訳): 大規模言語モデルは慢性的にオンライン・サーフェスか? 中国のインターネット・ミーム解説のためのデータセット
- Authors: Yubo Xie, Chenkai Wang, Zongyang Ma, Fahui Miao,
- Abstract要約: 大規模な言語モデル(LLM)は、インターネットから大量のテキストで訓練されているが、インターネット上で急速に広まるバイラルコンテンツは本当に理解しているのだろうか?
ChiMEはCineese Internet Meme Explanationのデータセットである。
データセットは、中国インターネットから人気のフレーズベースのミームからなり、その意味、起源、例文、型などの詳細情報が注釈付けされている。
- 参考スコア(独自算出の注目度): 4.797464143831952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are trained on vast amounts of text from the Internet, but do they truly understand the viral content that rapidly spreads online -- commonly known as memes? In this paper, we introduce CHIME, a dataset for CHinese Internet Meme Explanation. The dataset comprises popular phrase-based memes from the Chinese Internet, annotated with detailed information on their meaning, origin, example sentences, types, etc. To evaluate whether LLMs understand these memes, we designed two tasks. In the first task, we assessed the models' ability to explain a given meme, identify its origin, and generate appropriate example sentences. The results show that while LLMs can explain the meanings of some memes, their performance declines significantly for culturally and linguistically nuanced meme types. Additionally, they consistently struggle to provide accurate origins for the memes. In the second task, we created a set of multiple-choice questions (MCQs) requiring LLMs to select the most appropriate meme to fill in a blank within a contextual sentence. While the evaluated models were able to provide correct answers, their performance remains noticeably below human levels. We have made CHIME public and hope it will facilitate future research on computational meme understanding.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、インターネットから大量のテキストで訓練されているが、インターネット上で急速に広まるバイラルコンテンツ(ミームとして知られる)を本当に理解しているだろうか?
本稿では,Chenese Internet Meme ExplanationのデータセットであるCHIMEを紹介する。
データセットは、中国インターネットから人気のフレーズベースのミームからなり、その意味、起源、例文、型などの詳細情報が注釈付けされている。
LLMがこれらのミームを理解するかどうかを評価するため、我々は2つのタスクを設計した。
最初のタスクでは、モデルが与えられたミームを説明し、その起源を特定し、適切な例文を生成する能力を評価した。
その結果, LLMはいくつかのミームの意味を説明できるが, 文化的, 言語学的にニュアンスのあるミームでは, その性能は著しく低下することがわかった。
さらに、彼らはミームの正確な起源を提供するのに一貫して苦労している。
第2のタスクでは、文脈文内に空白を埋め込むのに最も適したミームを選択するためにLLMを必要とする複数の選択質問(MCQ)を作成しました。
評価されたモデルは正しい回答を提供することができたが、その性能は人間のレベルを下回ったままである。
我々はCHIMEを公開し、計算ミーム理解の今後の研究を促進することを願っている。
関連論文リスト
- MemeReaCon: Probing Contextual Meme Understanding in Large Vision-Language Models [50.2355423914562]
我々は,LVLM(Large Vision Language Models)がミームを本来の文脈でどのように理解するかを評価するために設計された,新しいベンチマークであるMemeReaConを紹介する。
私たちは5つのRedditコミュニティからミームを収集し、各ミームの画像、ポストテキスト、ユーザーコメントを一緒に保持しました。
モデルは文脈において重要な情報を解釈できないか、あるいはコミュニケーション目的を見越しながら視覚的詳細に過度に焦点を合わせるかのどちらかです。
論文 参考訳(メタデータ) (2025-05-23T03:27:23Z) - Large Vision-Language Models for Knowledge-Grounded Data Annotation of Memes [5.243460995467895]
本研究は,50種類のミームテンプレートを中心とした33,000以上のミームからなる大規模データセットであるClassic Memes-50-templates (CM50)を紹介する。
また,大規模な視覚言語モデルを利用して,高品質な画像キャプション,ミームキャプション,文芸機器ラベルを自動生成するアノテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-23T17:18:30Z) - Evolver: Chain-of-Evolution Prompting to Boost Large Multimodal Models for Hateful Meme Detection [49.122777764853055]
ヘイトフルミーム検出のためのLMM(Large Multimodal Models)の可能性を探る。
提案するEvolverは,Chain-of-Evolution (CoE) Promptingを介してLMMを組み込む。
Evolverは、ステップバイステップでLMMを通してミームと理由の進化と表現のプロセスをシミュレートする。
論文 参考訳(メタデータ) (2024-07-30T17:51:44Z) - What Makes a Meme a Meme? Identifying Memes for Memetics-Aware Dataset Creation [0.9217021281095907]
マルチモーダルインターネットミームは現在、オンライン談話におけるユビキタスなフィクスチャとなっている。
ミームはミームを模倣してシンボルに変換する過程である。
我々は,ミームと非ミームコンテンツとを識別するミーム識別プロトコルを開発した。
論文 参考訳(メタデータ) (2024-07-16T15:48:36Z) - Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes
Through Multimodal Explanations [48.82168723932981]
Em MultiBully-Exは、コード混在型サイバーいじめミームからマルチモーダルな説明を行うための最初のベンチマークデータセットである。
ミームの視覚的およびテキスト的説明のために,コントラスト言語-画像事前学習 (CLIP) アプローチが提案されている。
論文 参考訳(メタデータ) (2024-01-18T11:24:30Z) - Beneath the Surface: Unveiling Harmful Memes with Multimodal Reasoning
Distilled from Large Language Models [17.617187709968242]
既存の有害なミーム検出手法は、端から端までの分類方法において、表面的な害を示す信号のみを認識する。
本稿では,多モーダル融合を改善するために,大規模言語モデルから合理的な思考を学習するための新しい生成フレームワークを提案する。
提案手法は,有害ミーム検出タスクにおける最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-09T01:59:11Z) - A Template Is All You Meme [76.03172165923058]
5,200以上のmemeテンプレート、それらに関する情報、および54,000のテンプレートインスタンスの例で構成された知識ベースを作成します。
ミームテンプレートのセマンティック信号を調べるために,データセット中のミームと知識ベースに含まれるベーステンプレートを距離ベースで検索することでマッチングできることを示す。
メメテンプレートの検証により,検討対象のデータセット毎の最先端性能が得られ,テンプレート性に基づく解析方法が確立された。
論文 参考訳(メタデータ) (2023-11-11T19:38:14Z) - Memes in the Wild: Assessing the Generalizability of the Hateful Memes
Challenge Dataset [47.65948529524281]
Pinterestからヘイトフルで非ヘイトフルなミームを収集して、Facebookデータセットで事前トレーニングされたモデルで、サンプル外のパフォーマンスを評価します。
1) キャプションをOCRで抽出しなければならない,2) ミームは従来のミームよりも多様であり, 会話のスクリーンショットやテキストをプレーンな背景に表示する,という2つの重要な側面がある。
論文 参考訳(メタデータ) (2021-07-09T09:04:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。