論文の概要: Codec at SemEval-2022 Task 5: Multi-Modal Multi-Transformer Misogynous
Meme Classification Framework
- arxiv url: http://arxiv.org/abs/2206.07190v1
- Date: Tue, 14 Jun 2022 22:37:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 11:29:18.197778
- Title: Codec at SemEval-2022 Task 5: Multi-Modal Multi-Transformer Misogynous
Meme Classification Framework
- Title(参考訳): Codec at SemEval-2022 Task 5: Multi-Modal Multi-Transformer Misogynous Meme Classification Framework
- Authors: Ahmed Mahran, Carlo Alessandro Borella, Konstantinos Perifanos
- Abstract要約: マルチモーダル埋め込みおよびマルチラベルバイナリ分類タスクのための汎用フレームワークの構築に向けた作業について述べる。
我々はSemEval 2022コンペティションのタスク5(Multimedia Automatic Misogyny Identification)に参加している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper we describe our work towards building a generic framework for
both multi-modal embedding and multi-label binary classification tasks, while
participating in task 5 (Multimedia Automatic Misogyny Identification) of
SemEval 2022 competition.
Since pretraining deep models from scratch is a resource and data hungry
task, our approach is based on three main strategies. We combine different
state-of-the-art architectures to capture a wide spectrum of semantic signals
from the multi-modal input. We employ a multi-task learning scheme to be able
to use multiple datasets from the same knowledge domain to help increase the
model's performance. We also use multiple objectives to regularize and fine
tune different system components.
- Abstract(参考訳): 本稿では,SemEval 2022コンペティションのタスク5(Multimedia Automatic Misogyny Identification)に参加しながら,マルチモーダル埋め込みとマルチラベルバイナリ分類タスクのための汎用フレームワーク構築に向けた取り組みについて述べる。
深いモデルをスクラッチから事前トレーニングすることはリソースとデータに飢えた作業なので、私たちのアプローチは3つの主要な戦略に基づいています。
我々は、様々な最先端アーキテクチャを組み合わせて、マルチモーダル入力から幅広い意味信号をキャプチャする。
我々は、同じ知識領域から複数のデータセットを使用できるマルチタスク学習スキームを用いて、モデルの性能を向上させる。
さまざまなシステムコンポーネントを規則化し、微調整するために、複数の目的も使用しています。
関連論文リスト
- M&M: Multimodal-Multitask Model Integrating Audiovisual Cues in Cognitive Load Assessment [0.0]
本稿では,認知負荷評価のためのAVCAffeデータセットに適用した,新しいマルチモーダルマルチタスク学習フレームワークであるM&Mモデルを提案する。
M&Mは、オーディオとビデオの入力のための特別なストリームを特徴とする、デュアル・パスウェイ・アーキテクチャを通じてオーディオヴィジュアル・キューを独自に統合する。
重要な革新は多面的マルチヘッドアテンション機構であり、同期マルチタスクの異なるモダリティを融合させる。
論文 参考訳(メタデータ) (2024-03-14T14:49:40Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Revisit Multimodal Meta-Learning through the Lens of Multi-Task Learning [33.19179706038397]
マルチモーダルなメタラーニングは、その設定を多様なマルチモーダルなタスク分布に一般化することで、従来の数発メタラーニングを拡張した最近の問題である。
これまでの研究では、マルチモーダル分布で訓練された1つのメタラーナーは、個々の単調分布で訓練された複数のメタラーナーを上回ることがあると主張している。
まず,マイクロレベルで異なるモードのタスク間の知識伝達を定量化する手法を提案する。
第二に、マルチタスク学習におけるハードパラメータ共有と関連する作業の新たな解釈から着想を得た、新しいマルチモーダルメタラーンを提案する。
論文 参考訳(メタデータ) (2021-10-27T06:23:45Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - Team Neuro at SemEval-2020 Task 8: Multi-Modal Fine Grain Emotion
Classification of Memes using Multitask Learning [7.145975932644256]
本稿では,SemEval-2020のタスク8である感情分析の課題に使用したシステムについて述べる。
この課題には3つのサブタスクがあった。
提案するシステムでは,3つのタスクを1つのタスクにまとめ,複数のラベルの階層的な分類問題として表現する。
論文 参考訳(メタデータ) (2020-05-21T21:29:44Z) - Deep Multimodal Neural Architecture Search [178.35131768344246]
様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルアーキテクチャサーチ(MMnas)フレームワークを考案する。
マルチモーダル入力が与えられたら、まずプリミティブ演算のセットを定義し、その後、ディープエンコーダ-デコーダベースの統一バックボーンを構築する。
統合されたバックボーンの上にタスク固有のヘッドをアタッチして、異なるマルチモーダル学習タスクに取り組む。
論文 参考訳(メタデータ) (2020-04-25T07:00:32Z) - MTI-Net: Multi-Scale Task Interaction Networks for Multi-Task Learning [82.62433731378455]
特定のスケールで高い親和性を持つタスクは、他のスケールでこの動作を維持することが保証されていないことを示す。
本稿では,この発見に基づく新しいアーキテクチャ MTI-Net を提案する。
論文 参考訳(メタデータ) (2020-01-19T21:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。