論文の概要: MemeTector: Enforcing deep focus for meme detection
- arxiv url: http://arxiv.org/abs/2205.13268v1
- Date: Thu, 26 May 2022 10:50:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-28 01:21:03.148770
- Title: MemeTector: Enforcing deep focus for meme detection
- Title(参考訳): MemeTector: ミーム検出に重点を置く
- Authors: Christos Koutlis, Manos Schinas, Symeon Papadopoulos
- Abstract要約: オンライン現象の文化的・社会的側面をより正確に把握するために、ソーシャルメディアから画像ミームを正確に回収することが重要である。
本稿では,画像ミームの視覚的部分を正規画像クラスと初期画像ミームのインスタンスとして利用する手法を提案する。
我々は、これらの重要な部分にフォーカスするモデルの能力を高めるために、標準のViTアーキテクチャの上にトレーニング可能なアテンションメカニズムを使用します。
- 参考スコア(独自算出の注目度): 8.794414326545697
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Image memes and specifically their widely-known variation image macros, is a
special new media type that combines text with images and is used in social
media to playfully or subtly express humour, irony, sarcasm and even hate. It
is important to accurately retrieve image memes from social media to better
capture the cultural and social aspects of online phenomena and detect
potential issues (hate-speech, disinformation). Essentially, the background
image of an image macro is a regular image easily recognized as such by humans
but cumbersome for the machine to do so due to feature map similarity with the
complete image macro. Hence, accumulating suitable feature maps in such cases
can lead to deep understanding of the notion of image memes. To this end, we
propose a methodology that utilizes the visual part of image memes as instances
of the regular image class and the initial image memes as instances of the
image meme class to force the model to concentrate on the critical parts that
characterize an image meme. Additionally, we employ a trainable attention
mechanism on top of a standard ViT architecture to enhance the model's ability
to focus on these critical parts and make the predictions interpretable.
Several training and test scenarios involving web-scraped regular images of
controlled text presence are considered in terms of model robustness and
accuracy. The findings indicate that light visual part utilization combined
with sufficient text presence during training provides the best and most robust
model, surpassing state of the art.
- Abstract(参考訳): 画像ミーム、特にその広く知られている変種画像マクロは、テキストと画像を組み合わせる特別なメディアタイプであり、ソーシャルメディアでユーモア、皮肉、皮肉、憎しみなどの表現に使用される。
ソーシャルメディアから画像ミームを正確に回収し、オンライン現象の文化的・社会的側面をよりよく捉え、潜在的な問題(音声、偽情報)を検出することが重要である。
基本的に、画像マクロの背景画像は、人間が容易に認識できる通常の画像であるが、完全な画像マクロと特徴マップの類似性のため、マシンにとって面倒である。
したがって、適切な特徴写像を蓄積することで、画像ミームの概念の深い理解につながる可能性がある。
そこで本研究では,画像ミームの視覚的部分を正規画像クラスのインスタンスとして,初期画像ミームをイメージミームクラスのインスタンスとして,モデルに画像ミームを特徴付ける重要な部分に集中させる手法を提案する。
さらに,標準的なvitアーキテクチャ上にトレーニング可能なアテンション機構を採用し,モデルがこれらの重要な部分に集中し,予測を解釈可能にする能力を高めた。
モデルロバスト性と精度の観点から,Webスクラッピングされたテキスト存在の正規画像を含むいくつかのトレーニングおよびテストシナリオを考察する。
これらの結果から, 訓練中に十分なテキストの存在感と軽視的部分の利用が相まって, 最高の, 最も堅牢なモデルが得られた。
関連論文リスト
- Decoding Memes: A Comparative Study of Machine Learning Models for Template Identification [0.0]
ミームテンプレート(meme template)は、ミームを作成するのに使用されるレイアウトまたはフォーマットである。
ミームのバイラル性に関する広範な研究にもかかわらず、ミームのテンプレートを自動的に識別する作業は依然として課題である。
本稿では,既存のmemeテンプレート識別手法の総合的な比較と評価を行う。
論文 参考訳(メタデータ) (2024-08-15T12:52:06Z) - XMeCap: Meme Caption Generation with Sub-Image Adaptability [53.2509590113364]
社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
我々は、教師付き微調整と強化学習を採用するtextscXMeCapフレームワークを紹介した。
textscXMeCapは、シングルイメージのミームの平均評価スコアが75.85で、マルチイメージのミームは66.32で、それぞれ3.71%と4.82%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-07-24T10:51:46Z) - Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes
Through Multimodal Explanations [48.82168723932981]
Em MultiBully-Exは、コード混在型サイバーいじめミームからマルチモーダルな説明を行うための最初のベンチマークデータセットである。
ミームの視覚的およびテキスト的説明のために,コントラスト言語-画像事前学習 (CLIP) アプローチが提案されている。
論文 参考訳(メタデータ) (2024-01-18T11:24:30Z) - A Template Is All You Meme [83.05919383106715]
我々は,54,000枚以上の画像からなる www.knowyourme.com で発見されたミームと情報の知識ベースをリリースする。
我々は、ミームテンプレートが、以前のアプローチから欠落したコンテキストでモデルを注入するのに使えると仮定する。
論文 参考訳(メタデータ) (2023-11-11T19:38:14Z) - MemeGraphs: Linking Memes to Knowledge Graphs [5.857287622337647]
本稿では,映像をオブジェクトとその視覚的関係で表現するシーングラフと,トランスフォーマーアーキテクチャを用いたミーム分類のための構造化表現として知識グラフを提案する。
提案手法を,ミームの学習(構造化)表現のみを用いるマルチモーダルモデルImgBERTと比較し,一貫した改善を観察する。
分析により、人間のアノテーションよりも多くのエンティティをリンクする自動手法が示され、自動的に生成されたグラフはミームのヘイトフルネス分類に適していることが示された。
論文 参考訳(メタデータ) (2023-05-28T11:17:30Z) - Hate-CLIPper: Multimodal Hateful Meme Classification based on
Cross-modal Interaction of CLIP Features [5.443781798915199]
憎しみを込めたミームはソーシャルメディアの脅威になりつつある。
憎しみに満ちたミームを 検出するには 視覚情報とテキスト情報の両方を 慎重に考慮する必要がある
本稿では,Hate-CLIPperアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-10-12T04:34:54Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - Do Images really do the Talking? Analysing the significance of Images in
Tamil Troll meme classification [0.16863755729554888]
我々は,ミームの分類における画像の視覚的特徴の重要性を探究する。
画像とテキストに基づいて,ミームをトロール・ノントロールのミームとして組み込もうとする。
論文 参考訳(メタデータ) (2021-08-09T09:04:42Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。