論文の概要: NYCU-TWO at Memotion 3: Good Foundation, Good Teacher, then you have
Good Meme Analysis
- arxiv url: http://arxiv.org/abs/2302.06078v1
- Date: Mon, 13 Feb 2023 03:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 16:42:12.381315
- Title: NYCU-TWO at Memotion 3: Good Foundation, Good Teacher, then you have
Good Meme Analysis
- Title(参考訳): NYCU-TWO at Memotion 3: Good Foundation, Good Teacher, You's Good Meme Analysis
- Authors: Yu-Chien Tang, Kuang-Da Wang, Ting-Yun Ou, Wen-Chih Peng
- Abstract要約: 本稿では,Memotion 3.0共有タスクに対する堅牢なソリューションを提案する。
このタスクの目的は、ミームによって表現される感情とそれに対応する強度を分類することである。
与えられたミームのマルチモーダル機能を理解することが、タスクの解決の鍵となるでしょう。
- 参考スコア(独自算出の注目度): 4.361904115604854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a robust solution to the Memotion 3.0 Shared Task. The
goal of this task is to classify the emotion and the corresponding intensity
expressed by memes, which are usually in the form of images with short captions
on social media. Understanding the multi-modal features of the given memes will
be the key to solving the task. In this work, we use CLIP to extract aligned
image-text features and propose a novel meme sentiment analysis framework,
consisting of a Cooperative Teaching Model (CTM) for Task A and a Cascaded
Emotion Classifier (CEC) for Tasks B&C. CTM is based on the idea of knowledge
distillation, and can better predict the sentiment of a given meme in Task A;
CEC can leverage the emotion intensity suggestion from the prediction of Task C
to classify the emotion more precisely in Task B. Experiments show that we
achieved the 2nd place ranking for both Task A and Task B and the 4th place
ranking for Task C, with weighted F1-scores of 0.342, 0.784, and 0.535
respectively. The results show the robustness and effectiveness of our
framework. Our code is released at github.
- Abstract(参考訳): 本稿では,Memotion 3.0共有タスクに対する堅牢なソリューションを提案する。
この課題の目的は、通常ソーシャルメディア上で短い字幕を持つ画像の形で、ミームによって表現される感情と対応する強度を分類することである。
与えられたミームのマルチモーダル機能を理解することが、タスクの解決の鍵となるでしょう。
本稿では,CLIPを用いて画像テキストの特徴を抽出し,タスクAの協調指導モデル(CTM)とタスクB&Cのカスケード感情分類器(CEC)からなる新たな感情分析フレームワークを提案する。
CTMは、知識蒸留の考え方に基づいて、タスクAにおける与えられたミームの感情をより正確に予測できる; CECはタスクCの予測から感情をより正確に分類するために、タスクBの感情強度提案を活用できる;実験により、タスクAとタスクBの2位、タスクCの4位、重み付きF1スコアが0.342、0.784、0.535の2位にランクされた。
その結果,フレームワークの堅牢性と有効性を示した。
私たちのコードはgithubでリリースされています。
関連論文リスト
- A Unified Framework for 3D Scene Understanding [50.6762892022386]
UniSeg3Dは統一された3Dセグメンテーションフレームワークで、単一のモデル内でパノプト、セマンティック、インスタンス、インタラクティブ、参照、オープン語彙セグメンテーションタスクを実現する。
タスク間の知識共有を促進し、総合的な3Dシーン理解を促進する。
ScanNet20、ScanRefer、ScanNet200を含む3つのベンチマークの実験は、UniSeg3Dが現在のSOTAメソッドより一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-07-03T16:50:07Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - BCAmirs at SemEval-2024 Task 4: Beyond Words: A Multimodal and Multilingual Exploration of Persuasion in Memes [17.09830912625338]
画像からの付加的な意味情報の影響とモダリティギャップを評価するためのキャプション生成ステップを導入する。
本モデルでは, テキストエンコーダとしてRoBERTa, 画像エンコーダとしてCLIPを微調整するために, GPT-4 生成キャプションとミームテキストを併用した。
論文 参考訳(メタデータ) (2024-04-03T19:17:43Z) - Overview of Memotion 3: Sentiment and Emotion Analysis of Codemixed
Hinglish Memes [36.34201719103715]
本稿では,AAAI-23のDeFactify 2ワークショップの一環として,Memotion 3共有タスクの概要を紹介する。
タスクA(Task A)、感情B(Task B)、感情強度(Task C)に基づくヒンディー語コード混合ミームの注釈付きデータセットをリリースした。
50以上のチームが共有タスクに登録され、5チームがMemotion 3データセットのテストセットに最終提出を行った。
論文 参考訳(メタデータ) (2023-09-12T18:47:29Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - BLUE at Memotion 2.0 2022: You have my Image, my Text and my Transformer [12.622643370707333]
我々は,第2回MEMOTIONコンペティションのチームBLUEのソリューションを提示する。
本稿では,BERTを用いたテキストのみの手法を用いて,ミーム分類のための2つのアプローチを示す。
タスクAで1位、タスクBで2位、タスクCで3位を得る。
論文 参考訳(メタデータ) (2022-02-15T16:25:02Z) - Unifying Architectures, Tasks, and Modalities Through a Simple
Sequence-to-Sequence Learning Framework [83.82026345508334]
モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。
OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
論文 参考訳(メタデータ) (2022-02-07T10:38:21Z) - UPB at SemEval-2020 Task 8: Joint Textual and Visual Modeling in a
Multi-Task Learning Architecture for Memotion Analysis [1.2233362977312945]
本稿では,SemEval-2020 Task 8: Memotion Analysisのためのシステムについて述べる。
テキストエンコーディングのためのALBERTと画像表現のためのVGG-16を組み合わせたマルチモーダルマルチタスク学習アーキテクチャである。
提案手法は,第11位がSubtask A(0.3453マクロF1スコア),第1位がSubtask B(0.5183マクロF1スコア),第3位がSubtask C(0.3171マクロF1スコア)である。
論文 参考訳(メタデータ) (2020-09-06T17:17:41Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - DSC IIT-ISM at SemEval-2020 Task 8: Bi-Fusion Techniques for Deep Meme
Emotion Analysis [5.259920715958942]
本稿では,SemEval 2020における感情分析共有タスクについて述べる。
本稿では,感情とユーモアの分類タスクに対するモーダル間の依存性を平均化するバイモーダル融合技術を用いたシステムを提案する。
論文 参考訳(メタデータ) (2020-07-28T17:23:35Z) - DeepEMD: Differentiable Earth Mover's Distance for Few-Shot Learning [122.51237307910878]
我々は,画像領域間の最適なマッチングの新しい視点から,少数ショット画像分類法を開発した。
我々は、高密度画像表現間の構造距離を計算するために、Earth Mover's Distance (EMD) を用いている。
定式化において重要な要素の重みを生成するために,我々は相互参照機構を設計する。
論文 参考訳(メタデータ) (2020-03-15T08:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。