論文の概要: BLUE at Memotion 2.0 2022: You have my Image, my Text and my Transformer
- arxiv url: http://arxiv.org/abs/2202.07543v1
- Date: Tue, 15 Feb 2022 16:25:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 19:00:46.698352
- Title: BLUE at Memotion 2.0 2022: You have my Image, my Text and my Transformer
- Title(参考訳): blue at memotion 2.0 2022: 私のイメージ、テキスト、トランスフォーマー
- Authors: Ana-Maria Bucur, Adrian Cosma and Ioan-Bogdan Iordache
- Abstract要約: 我々は,第2回MEMOTIONコンペティションのチームBLUEのソリューションを提示する。
本稿では,BERTを用いたテキストのみの手法を用いて,ミーム分類のための2つのアプローチを示す。
タスクAで1位、タスクBで2位、タスクCで3位を得る。
- 参考スコア(独自算出の注目度): 12.622643370707333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Memes are prevalent on the internet and continue to grow and evolve alongside
our culture. An automatic understanding of memes propagating on the internet
can shed light on the general sentiment and cultural attitudes of people. In
this work, we present team BLUE's solution for the second edition of the
MEMOTION competition. We showcase two approaches for meme classification (i.e.
sentiment, humour, offensive, sarcasm and motivation levels) using a text-only
method using BERT, and a Multi-Modal-Multi-Task transformer network that
operates on both the meme image and its caption to output the final scores. In
both approaches, we leverage state-of-the-art pretrained models for text (BERT,
Sentence Transformer) and image processing (EfficientNetV4, CLIP). Through our
efforts, we obtain first place in task A, second place in task B and third
place in task C. In addition, our team obtained the highest average score for
all three tasks.
- Abstract(参考訳): ミームはインターネット上で普及し、私たちの文化と共に成長し、進化し続けています。
インターネット上で伝播するミームの自動理解は、人々の一般的な感情と文化的態度に光を当てることができる。
本稿では,第2回MEMOTIONコンペティションのチームBLUEのソリューションについて紹介する。
bertを用いたテキストのみの手法によるミーム分類(感情・ユーモア・攻撃・皮肉・動機づけレベル)と,ミーム画像とキャプションの両方で動作するマルチモーダルマルチタスクトランスフォーマーネットワークを用いて最終スコアを出力する手法を2つ紹介する。
両アプローチとも,テキスト(BERT, Sentence Transformer)と画像処理(EfficientNetV4, CLIP)の最先端事前学習モデルを活用する。
我々の努力により、我々はタスクaで第1位、タスクbで第2位、タスクcで第3位を獲得しました。
関連論文リスト
- XMeCap: Meme Caption Generation with Sub-Image Adaptability [53.2509590113364]
社会的な意味や文化的な詳細に深く根ざした噂は、機械にとってユニークな挑戦である。
我々は、教師付き微調整と強化学習を採用するtextscXMeCapフレームワークを紹介した。
textscXMeCapは、シングルイメージのミームの平均評価スコアが75.85で、マルチイメージのミームは66.32で、それぞれ3.71%と4.82%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-07-24T10:51:46Z) - BCAmirs at SemEval-2024 Task 4: Beyond Words: A Multimodal and Multilingual Exploration of Persuasion in Memes [17.09830912625338]
画像からの付加的な意味情報の影響とモダリティギャップを評価するためのキャプション生成ステップを導入する。
本モデルでは, テキストエンコーダとしてRoBERTa, 画像エンコーダとしてCLIPを微調整するために, GPT-4 生成キャプションとミームテキストを併用した。
論文 参考訳(メタデータ) (2024-04-03T19:17:43Z) - An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。
タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。
我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文 参考訳(メタデータ) (2024-04-01T17:08:50Z) - Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes
Through Multimodal Explanations [48.82168723932981]
Em MultiBully-Exは、コード混在型サイバーいじめミームからマルチモーダルな説明を行うための最初のベンチマークデータセットである。
ミームの視覚的およびテキスト的説明のために,コントラスト言語-画像事前学習 (CLIP) アプローチが提案されている。
論文 参考訳(メタデータ) (2024-01-18T11:24:30Z) - Mapping Memes to Words for Multimodal Hateful Meme Classification [26.101116761577796]
一部のミームは悪意があり、ヘイトフルなコンテンツを宣伝し、差別を永続させる。
マルチモーダルヘイトフルミーム分類のためのISSUESという新しい手法を提案する。
提案手法は,Hateful Memes Challenge と HarMeme データセットの最先端化を実現する。
論文 参考訳(メタデータ) (2023-10-12T14:38:52Z) - Learning to Imagine: Visually-Augmented Natural Language Generation [73.65760028876943]
本稿では,事前学習型言語モデル(PLM)を視覚的に拡張した自然言語gEnerationのために学習する手法を提案する。
拡散モデルを用いて、入力テキストに条件付き高品質な画像を合成する。
段落全体に対して1つの画像のみを生成するのではなく、各文に対して合成を行う。
論文 参考訳(メタデータ) (2023-05-26T13:59:45Z) - MemeFier: Dual-stage Modality Fusion for Image Meme Classification [8.794414326545697]
画像ミームのような新しいデジタルコンテンツは、マルチモーダル手段を用いてヘイトを広めるきっかけとなった。
インターネット画像ミームのきめ細かい分類のためのディープラーニングアーキテクチャであるMemeFierを提案する。
論文 参考訳(メタデータ) (2023-04-06T07:36:52Z) - NYCU-TWO at Memotion 3: Good Foundation, Good Teacher, then you have
Good Meme Analysis [4.361904115604854]
本稿では,Memotion 3.0共有タスクに対する堅牢なソリューションを提案する。
このタスクの目的は、ミームによって表現される感情とそれに対応する強度を分類することである。
与えられたミームのマルチモーダル機能を理解することが、タスクの解決の鍵となるでしょう。
論文 参考訳(メタデータ) (2023-02-13T03:25:37Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z) - Memes in the Wild: Assessing the Generalizability of the Hateful Memes
Challenge Dataset [47.65948529524281]
Pinterestからヘイトフルで非ヘイトフルなミームを収集して、Facebookデータセットで事前トレーニングされたモデルで、サンプル外のパフォーマンスを評価します。
1) キャプションをOCRで抽出しなければならない,2) ミームは従来のミームよりも多様であり, 会話のスクリーンショットやテキストをプレーンな背景に表示する,という2つの重要な側面がある。
論文 参考訳(メタデータ) (2021-07-09T09:04:05Z) - IITK at SemEval-2020 Task 8: Unimodal and Bimodal Sentiment Analysis of
Internet Memes [2.2385755093672044]
本稿では,SemEval-2020 Task 8における感情分析問題に対するアプローチを提案する。
このタスクの目的は、感情の内容と感情に基づいてミームを分類することである。
この結果から,Word2vecを入力として組み込んだ単純なフィードフォワードニューラルネットワーク(FFNN)は,他のすべてよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-21T14:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。