論文の概要: UPB at SemEval-2020 Task 8: Joint Textual and Visual Modeling in a
Multi-Task Learning Architecture for Memotion Analysis
- arxiv url: http://arxiv.org/abs/2009.02779v2
- Date: Tue, 10 Nov 2020 17:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 08:21:50.325565
- Title: UPB at SemEval-2020 Task 8: Joint Textual and Visual Modeling in a
Multi-Task Learning Architecture for Memotion Analysis
- Title(参考訳): upb at semeval-2020 task 8: joint textual and visual modeling in a multi-task learning architecture for memotion analysis
- Authors: George-Alexandru Vlad, George-Eduard Zaharia, Dumitru-Clementin
Cercel, Costin-Gabriel Chiru, Stefan Trausan-Matu
- Abstract要約: 本稿では,SemEval-2020 Task 8: Memotion Analysisのためのシステムについて述べる。
テキストエンコーディングのためのALBERTと画像表現のためのVGG-16を組み合わせたマルチモーダルマルチタスク学習アーキテクチャである。
提案手法は,第11位がSubtask A(0.3453マクロF1スコア),第1位がSubtask B(0.5183マクロF1スコア),第3位がSubtask C(0.3171マクロF1スコア)である。
- 参考スコア(独自算出の注目度): 1.2233362977312945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Users from the online environment can create different ways of expressing
their thoughts, opinions, or conception of amusement. Internet memes were
created specifically for these situations. Their main purpose is to transmit
ideas by using combinations of images and texts such that they will create a
certain state for the receptor, depending on the message the meme has to send.
These posts can be related to various situations or events, thus adding a funny
side to any circumstance our world is situated in. In this paper, we describe
the system developed by our team for SemEval-2020 Task 8: Memotion Analysis.
More specifically, we introduce a novel system to analyze these posts, a
multimodal multi-task learning architecture that combines ALBERT for text
encoding with VGG-16 for image representation. In this manner, we show that the
information behind them can be properly revealed. Our approach achieves good
performance on each of the three subtasks of the current competition, ranking
11th for Subtask A (0.3453 macro F1-score), 1st for Subtask B (0.5183 macro
F1-score), and 3rd for Subtask C (0.3171 macro F1-score) while exceeding the
official baseline results by high margins.
- Abstract(参考訳): オンライン環境のユーザーは、自分の考え、意見、あるいは娯楽の概念を表現する異なる方法を作ることができる。
これらの状況に特化してインターネットミームが作られた。
彼らの主な目的は、イメージとテキストの組み合わせを使ってアイデアを伝達することであり、ミームが送信しなければならないメッセージに応じて、受信者の特定の状態を生成する。
これらの投稿は、様々な状況や出来事と関連づけられるので、私たちの世界のあらゆる状況に面白い側面を加えることができる。
本稿では,semeval-2020タスク8用に開発したシステムであるmemotion analysisについて述べる。
具体的には、テキストエンコーディングのalbertと画像表現のvgg-16を組み合わせたマルチモーダルマルチタスク学習アーキテクチャである、これらの投稿を分析する新しいシステムを提案する。
このようにして、その背後にある情報が適切に明らかにできることを示す。
提案手法は,現在大会の3つのサブタスクにおいて,第11位がSubtask A(0.3453マクロF1スコア),第1位がSubtask B(0.5183マクロF1スコア),第3位がSubtask C(0.3171マクロF1スコア),第3位がオフィシャルベースラインを上回り,それぞれにおいて良好な性能を発揮する。
関連論文リスト
- A Unified Framework for 3D Scene Understanding [50.6762892022386]
UniSeg3Dは統一された3Dセグメンテーションフレームワークで、単一のモデル内でパノプト、セマンティック、インスタンス、インタラクティブ、参照、オープン語彙セグメンテーションタスクを実現する。
タスク間の知識共有を促進し、総合的な3Dシーン理解を促進する。
ScanNet20、ScanRefer、ScanNet200を含む3つのベンチマークの実験は、UniSeg3Dが現在のSOTAメソッドより一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-07-03T16:50:07Z) - MIPS at SemEval-2024 Task 3: Multimodal Emotion-Cause Pair Extraction in Conversations with Multimodal Language Models [13.137392771279742]
本稿では,SemEval 2024 Task 3 の Subtask 2 に対して,会話におけるマルチモーダル感情の原因分析について提案する。
本稿では,テキスト,音声,視覚的モダリティを統合した新しいマルチモーダル感情認識・マルチモーダル感情原因抽出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T01:16:02Z) - NYCU-TWO at Memotion 3: Good Foundation, Good Teacher, then you have
Good Meme Analysis [4.361904115604854]
本稿では,Memotion 3.0共有タスクに対する堅牢なソリューションを提案する。
このタスクの目的は、ミームによって表現される感情とそれに対応する強度を分類することである。
与えられたミームのマルチモーダル機能を理解することが、タスクの解決の鍵となるでしょう。
論文 参考訳(メタデータ) (2023-02-13T03:25:37Z) - Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark [80.79082788458602]
テキスト・ツー・イメージ・モデルを評価するための新しいマルチタスク・ベンチマークを提供する。
我々は、最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルを比較した。
20人のコンピュータサイエンスの大学院生が、2つのモデルを3つのタスクで評価し、それぞれ10のプロンプトで3つの難易度で評価した。
論文 参考訳(メタデータ) (2022-11-22T09:27:53Z) - VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。
我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。
我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文 参考訳(メタデータ) (2022-10-06T17:50:11Z) - Unifying Architectures, Tasks, and Modalities Through a Simple
Sequence-to-Sequence Learning Framework [83.82026345508334]
モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。
OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
論文 参考訳(メタデータ) (2022-02-07T10:38:21Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - SemEval-2021 Task 4: Reading Comprehension of Abstract Meaning [47.49596196559958]
本稿では,SemEval-2021共有タスクについて紹介する。4: Reading of Abstract Meaning (ReCAM)。
パスとそれに対応する質問が与えられた場合、参加者システムは、抽象概念の5つの候補から正しい回答を選択することが期待される。
Subtask 1は、物理的な世界で直接認識できない概念を、システムがいかにうまくモデル化できるかを評価することを目的としている。
Subtask 2は、ハイパーニム階層にある非特異な概念を解釈するモデルの能力に焦点を当てている。
Subtask 3は、2種類の抽象性に対するモデルの一般化可能性に関する洞察を提供することを目的としている。
論文 参考訳(メタデータ) (2021-05-31T11:04:17Z) - DSC IIT-ISM at SemEval-2020 Task 8: Bi-Fusion Techniques for Deep Meme
Emotion Analysis [5.259920715958942]
本稿では,SemEval 2020における感情分析共有タスクについて述べる。
本稿では,感情とユーモアの分類タスクに対するモーダル間の依存性を平均化するバイモーダル融合技術を用いたシステムを提案する。
論文 参考訳(メタデータ) (2020-07-28T17:23:35Z) - YNU-HPCC at SemEval-2020 Task 8: Using a Parallel-Channel Model for
Memotion Analysis [11.801902984731129]
本稿では,ミーム内のテキスト情報と視覚情報を処理する並列チャネルモデルを提案する。
ミームを識別・分類する共有タスクでは、ソーシャルメディア上での言語行動に応じてデータセットを前処理する。
次に、変換器からの双方向表現(BERT)を適応・微調整し、画像から特徴を抽出するために2種類の畳み込みニューラルネットワークモデル(CNN)を用いた。
論文 参考訳(メタデータ) (2020-07-28T03:20:31Z) - IITK at SemEval-2020 Task 8: Unimodal and Bimodal Sentiment Analysis of
Internet Memes [2.2385755093672044]
本稿では,SemEval-2020 Task 8における感情分析問題に対するアプローチを提案する。
このタスクの目的は、感情の内容と感情に基づいてミームを分類することである。
この結果から,Word2vecを入力として組み込んだ単純なフィードフォワードニューラルネットワーク(FFNN)は,他のすべてよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-21T14:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。