論文の概要: PromptMTopic: Unsupervised Multimodal Topic Modeling of Memes using
Large Language Models
- arxiv url: http://arxiv.org/abs/2312.06093v1
- Date: Mon, 11 Dec 2023 03:36:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 17:04:17.519952
- Title: PromptMTopic: Unsupervised Multimodal Topic Modeling of Memes using
Large Language Models
- Title(参考訳): PromptMTopic:大規模言語モデルを用いたミームの教師なしマルチモーダルトピックモデリング
- Authors: Nirmalendu Prakash, Han Wang, Nguyen Khoi Hoang, Ming Shan Hee, Roy
Ka-Wei Lee
- Abstract要約: テキストと視覚の両方からトピックを学習する新しいマルチモーダルプロンプトベースモデルであるtextPromptMTopicを提案する。
本モデルは,テキストと視覚的モダリティ間の意味的相互作用を考慮して,ミームから学習したトピックを効果的に抽出し,クラスタ化する。
我々の研究は、今日の社会における重要なコミュニケーション形態であるミームの話題とテーマの理解に寄与する。
- 参考スコア(独自算出の注目度): 7.388466146105024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of social media has given rise to a new form of
communication: memes. Memes are multimodal and often contain a combination of
text and visual elements that convey meaning, humor, and cultural significance.
While meme analysis has been an active area of research, little work has been
done on unsupervised multimodal topic modeling of memes, which is important for
content moderation, social media analysis, and cultural studies. We propose
\textsf{PromptMTopic}, a novel multimodal prompt-based model designed to learn
topics from both text and visual modalities by leveraging the language modeling
capabilities of large language models. Our model effectively extracts and
clusters topics learned from memes, considering the semantic interaction
between the text and visual modalities. We evaluate our proposed model through
extensive experiments on three real-world meme datasets, which demonstrate its
superiority over state-of-the-art topic modeling baselines in learning
descriptive topics in memes. Additionally, our qualitative analysis shows that
\textsf{PromptMTopic} can identify meaningful and culturally relevant topics
from memes. Our work contributes to the understanding of the topics and themes
of memes, a crucial form of communication in today's society.\\
\red{\textbf{Disclaimer: This paper contains sensitive content that may be
disturbing to some readers.}}
- Abstract(参考訳): ソーシャルメディアの普及により、コミュニケーションの新たな形態であるミームが生まれた。
ミームは多様であり、しばしば意味、ユーモア、文化的重要性を伝えるテキストと視覚要素の組み合わせを含んでいる。
ミーム分析は研究の活発な領域であるが, コンテンツモデレーション, ソーシャルメディア分析, 文化研究において重要である, テーマの教師なしマルチモーダル・トピック・モデリングについてはほとんど研究されていない。
大規模言語モデルの言語モデル機能を活用して,テキストと視覚の両方からトピックを学習するように設計された,新しいマルチモーダルプロンプトベースモデルである \textsf{promptmtopic} を提案する。
本モデルは,テキストと視覚的モダリティ間の意味的相互作用を考慮して,ミームから学習したトピックを効果的に抽出し,クラスタ化する。
本研究では,実世界の3つのミームデータセットについて広範な実験を行い,memeにおける記述的トピックの学習において,最先端のトピックモデリングベースラインよりも優れていることを示す。
さらに,<textsf{PromptMTopic} はミームから有意義で文化的に関連のあるトピックを識別できることを示す。
我々の研究は、今日の社会における重要なコミュニケーション形態であるミームの話題とテーマの理解に寄与する。
\\\ \red{\textbf{disclaimer: この論文は、一部の読者に邪魔になる可能性のある機密コンテンツを含んでいる。
}}
関連論文リスト
- Large Vision-Language Models for Knowledge-Grounded Data Annotation of Memes [5.243460995467895]
本研究は,50種類のミームテンプレートを中心とした33,000以上のミームからなる大規模データセットであるClassic Memes-50-templates (CM50)を紹介する。
また,大規模な視覚言語モデルを利用して,高品質な画像キャプション,ミームキャプション,文芸機器ラベルを自動生成するアノテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-23T17:18:30Z) - XMeCap: Meme Caption Generation with Sub-Image Adaptability [53.2509590113364]
社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
我々は、教師付き微調整と強化学習を採用するtextscXMeCapフレームワークを紹介した。
textscXMeCapは、シングルイメージのミームの平均評価スコアが75.85で、マルチイメージのミームは66.32で、それぞれ3.71%と4.82%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-07-24T10:51:46Z) - MEMEX: Detecting Explanatory Evidence for Memes via Knowledge-Enriched
Contextualization [31.209594252045566]
本稿では,ミームと関連する文書を与えられた新しいタスクMEMEXを提案し,ミームの背景を簡潔に説明するコンテキストを掘り下げることを目的とする。
MCCをベンチマークするために,共通感覚に富んだミーム表現を用いたマルチモーダル・ニューラル・フレームワークであるMIMEと,ミームとコンテキスト間の相互モーダルなセマンティック依存関係を捉える階層的アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-25T10:19:35Z) - What do you MEME? Generating Explanations for Visual Semantic Role
Labelling in Memes [42.357272117919464]
ミームにおける視覚的意味的役割のラベル付けに関する説明を生成する新しいタスク-EXCLAIMを導入する。
この目的のために,3種類のエンティティに対する意味的役割の自然言語説明を提供する新しいデータセットであるExHVVをキュレートする。
また,EXCLAIMを最適に扱える新しいマルチモーダル・マルチタスク学習フレームワークであるLUMENを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:21:36Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Detecting and Understanding Harmful Memes: A Survey [48.135415967633676]
我々は有害なミームに焦点を当てた総合的な調査を行っている。
興味深い発見の1つは、多くの有害ミームが実際には研究されていないことである。
別の観察では、ミームは異なる言語で再パッケージ化することでグローバルに伝播し、多言語化することもできる。
論文 参考訳(メタデータ) (2022-05-09T13:43:27Z) - Do Images really do the Talking? Analysing the significance of Images in
Tamil Troll meme classification [0.16863755729554888]
我々は,ミームの分類における画像の視覚的特徴の重要性を探究する。
画像とテキストに基づいて,ミームをトロール・ノントロールのミームとして組み込もうとする。
論文 参考訳(メタデータ) (2021-08-09T09:04:42Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。