論文の概要: XMeCap: Meme Caption Generation with Sub-Image Adaptability
- arxiv url: http://arxiv.org/abs/2407.17152v2
- Date: Wed, 31 Jul 2024 12:56:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 19:45:44.209786
- Title: XMeCap: Meme Caption Generation with Sub-Image Adaptability
- Title(参考訳): XMeCap: サブイメージ適応性を備えたミームキャプション生成
- Authors: Yuyan Chen, Songzhou Yan, Zhihong Zhu, Zhixu Li, Yanghua Xiao,
- Abstract要約: 社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
我々は、教師付き微調整と強化学習を採用するtextscXMeCapフレームワークを紹介した。
textscXMeCapは、シングルイメージのミームの平均評価スコアが75.85で、マルチイメージのミームは66.32で、それぞれ3.71%と4.82%で最高のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 53.2509590113364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humor, deeply rooted in societal meanings and cultural details, poses a unique challenge for machines. While advances have been made in natural language processing, real-world humor often thrives in a multi-modal context, encapsulated distinctively by memes. This paper poses a particular emphasis on the impact of multi-images on meme captioning. After that, we introduce the \textsc{XMeCap} framework, a novel approach that adopts supervised fine-tuning and reinforcement learning based on an innovative reward model, which factors in both global and local similarities between visuals and text. Our results, benchmarked against contemporary models, manifest a marked improvement in caption generation for both single-image and multi-image memes, as well as different meme categories. \textsc{XMeCap} achieves an average evaluation score of 75.85 for single-image memes and 66.32 for multi-image memes, outperforming the best baseline by 3.71\% and 4.82\%, respectively. This research not only establishes a new frontier in meme-related studies but also underscores the potential of machines in understanding and generating humor in a multi-modal setting.
- Abstract(参考訳): 社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
自然言語処理の進歩はあったが、現実世界のユーモアは、しばしばマルチモーダルな文脈で繁栄し、ミームによって独特にカプセル化されている。
本稿では,マルチイメージがミームキャプションに与える影響を特に強調する。
その後、革新的報酬モデルに基づく教師付き微調整と強化学習を取り入れた新しいアプローチである「textsc{XMeCap} framework」を導入する。
また,同時代のモデルに対してベンチマークを行った結果,単一画像および複数画像のミームと異なるミームカテゴリのキャプション生成に顕著な改善が認められた。
\textsc{XMeCap} は、シングルイメージのミームの平均評価スコアが 75.85 であり、マルチイメージのミームは 66.32 であり、それぞれ最高のベースラインを 3.71 % と 4.82 % で上回っている。
この研究は、ミーム関連研究における新たなフロンティアを確立するだけでなく、マルチモーダル環境でのユーモアの理解と生成における機械の可能性も浮き彫りにしている。
関連論文リスト
- Text or Image? What is More Important in Cross-Domain Generalization
Capabilities of Hate Meme Detection Models? [2.4899077941924967]
本稿では,マルチモーダルヘイトミーム検出におけるクロスドメイン一般化の難題について述べる。
ヘイトフルミームのテキスト成分のみによって、既存のマルチモーダル分類器が異なる領域にわたって一般化できるという仮説を支持する十分な証拠を提供する。
新たに作成された共同創設者データセットに対する我々の評価は、画像共同創設者の0.18ドルの平均$Delta$F1と比較すると、テキスト共同創設者のより高いパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-07T15:44:55Z) - Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes
Through Multimodal Explanations [48.82168723932981]
Em MultiBully-Exは、コード混在型サイバーいじめミームからマルチモーダルな説明を行うための最初のベンチマークデータセットである。
ミームの視覚的およびテキスト的説明のために,コントラスト言語-画像事前学習 (CLIP) アプローチが提案されている。
論文 参考訳(メタデータ) (2024-01-18T11:24:30Z) - PromptMTopic: Unsupervised Multimodal Topic Modeling of Memes using
Large Language Models [7.388466146105024]
テキストと視覚の両方からトピックを学習する新しいマルチモーダルプロンプトベースモデルであるtextPromptMTopicを提案する。
本モデルは,テキストと視覚的モダリティ間の意味的相互作用を考慮して,ミームから学習したトピックを効果的に抽出し,クラスタ化する。
我々の研究は、今日の社会における重要なコミュニケーション形態であるミームの話題とテーマの理解に寄与する。
論文 参考訳(メタデータ) (2023-12-11T03:36:50Z) - Social Meme-ing: Measuring Linguistic Variation in Memes [24.226580919186613]
我々は,ミームの個々のインスタンスをテンプレートやセマンティック変数にクラスタリングする計算パイプラインを構築した。
それらのセマンティック関数によってクラスタ化された3.8MイメージのtextscSemanticMemesデータセットを利用可能にしています。
我々はこれらのクラスターを用いて、ミームの言語的変化を分析し、サブレディット間でのミーム使用の社会的意義のある変動が存在することを発見するだけでなく、これらのコミュニティにおけるミームの革新と文化のパターンが、以前の文章言語での発見と一致していることを発見した。
論文 参考訳(メタデータ) (2023-11-15T17:20:20Z) - What do you MEME? Generating Explanations for Visual Semantic Role
Labelling in Memes [42.357272117919464]
ミームにおける視覚的意味的役割のラベル付けに関する説明を生成する新しいタスク-EXCLAIMを導入する。
この目的のために,3種類のエンティティに対する意味的役割の自然言語説明を提供する新しいデータセットであるExHVVをキュレートする。
また,EXCLAIMを最適に扱える新しいマルチモーダル・マルチタスク学習フレームワークであるLUMENを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:21:36Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - Do Images really do the Talking? Analysing the significance of Images in
Tamil Troll meme classification [0.16863755729554888]
我々は,ミームの分類における画像の視覚的特徴の重要性を探究する。
画像とテキストに基づいて,ミームをトロール・ノントロールのミームとして組み込もうとする。
論文 参考訳(メタデータ) (2021-08-09T09:04:42Z) - Memes in the Wild: Assessing the Generalizability of the Hateful Memes
Challenge Dataset [47.65948529524281]
Pinterestからヘイトフルで非ヘイトフルなミームを収集して、Facebookデータセットで事前トレーニングされたモデルで、サンプル外のパフォーマンスを評価します。
1) キャプションをOCRで抽出しなければならない,2) ミームは従来のミームよりも多様であり, 会話のスクリーンショットやテキストをプレーンな背景に表示する,という2つの重要な側面がある。
論文 参考訳(メタデータ) (2021-07-09T09:04:05Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。