論文の概要: AMS_ADRN at SemEval-2022 Task 5: A Suitable Image-text Multimodal Joint
Modeling Method for Multi-task Misogyny Identification
- arxiv url: http://arxiv.org/abs/2202.09099v1
- Date: Fri, 18 Feb 2022 09:41:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 14:31:35.146553
- Title: AMS_ADRN at SemEval-2022 Task 5: A Suitable Image-text Multimodal Joint
Modeling Method for Multi-task Misogyny Identification
- Title(参考訳): AMS_ADRN at SemEval-2022 Task 5: An suitable image-text Multimodal Joint Modeling Method for Multi-task Misogyny Identification
- Authors: Da Li, Ming Yi, Yukai He
- Abstract要約: 女性はオンライン、特にTwitterやInstagramのような画像ベースのソーシャルメディアで影響力がある。
本稿では,SemEval-2022 Task 5: Multimedia Automatic Misogyny Identificationについて述べる。
- 参考スコア(独自算出の注目度): 3.5382535469099436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Women are influential online, especially in image-based social media such as
Twitter and Instagram. However, many in the network environment contain gender
discrimination and aggressive information, which magnify gender stereotypes and
gender inequality. Therefore, the filtering of illegal content such as gender
discrimination is essential to maintain a healthy social network environment.
In this paper, we describe the system developed by our team for SemEval-2022
Task 5: Multimedia Automatic Misogyny Identification. More specifically, we
introduce two novel system to analyze these posts: a multimodal multi-task
learning architecture that combines Bertweet for text encoding with ResNet-18
for image representation, and a single-flow transformer structure which
combines text embeddings from BERT-Embeddings and image embeddings from several
different modules such as EfficientNet and ResNet. In this manner, we show that
the information behind them can be properly revealed. Our approach achieves
good performance on each of the two subtasks of the current competition,
ranking 15th for Subtask A (0.746 macro F1-score), 11th for Subtask B (0.706
macro F1-score) while exceeding the official baseline results by high margins.
- Abstract(参考訳): 女性はオンライン、特にTwitterやInstagramのような画像ベースのソーシャルメディアで影響力がある。
しかし、ネットワーク環境には性差別や攻撃的な情報が含まれており、性別のステレオタイプや性別の不平等を増大させる。
したがって、性差別などの違法コンテンツのフィルタリングは、健全なソーシャルネットワーク環境を維持する上で不可欠である。
本稿では,semeval-2022タスク5用に開発したマルチメディア自動ミソジニー識別システムについて述べる。
具体的には,テキストエンコーディングのためのBertweetと画像表現のためのResNet-18を組み合わせたマルチモーダルマルチタスク学習アーキテクチャと,BERT-Embeddingからのテキスト埋め込みと,EfficientNetやResNetなどの複数のモジュールからのイメージ埋め込みを組み合わせた単一フロートランスフォーマ構造を提案する。
このようにして、その背後にある情報が適切に明らかにできることを示す。
提案手法は,現行の2つのサブタスクにおいて,第15位がSubtask A(0.746マクロF1スコア),第11位がSubtask B(0.706マクロF1スコア),第11位が公式のベースライン結果に高いマージンで勝っている。
関連論文リスト
- Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - KOSMOS-2.5: A Multimodal Literate Model [136.96172068766285]
テキスト集約画像の機械読取のためのマルチモーダルリテラルモデル KOSMOS-2.5 を提案する。
KOSMOS-2.5は2つの異なる相補的な転写タスクに優れる。
我々は文書理解タスクにKoSMOS-2.5を微調整し、KoSMOS-2.5-CHATという文書理解ジェネラリストを生み出した。
論文 参考訳(メタデータ) (2023-09-20T15:50:08Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - CL-UZH at SemEval-2023 Task 10: Sexism Detection through Incremental
Fine-Tuning and Multi-Task Learning with Label Descriptions [0.0]
SemEval shared task textitTowards Explainable Detection of Online Sexism (EDOS 2023)は、英語のソーシャルメディア投稿で性差別を検出することを目的としている。
本稿では,3つのサブタスクすべてに対して,関連するタスクを微調整したマルチタスクモデルに基づく提案システムを提案する。
我々は、各タスクをバイナリペアテキスト分類として定式化し、入力テキストとともにデータセットとラベル記述が与えられるマルチタスク学習を実装した。
論文 参考訳(メタデータ) (2023-06-06T17:59:49Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - Codec at SemEval-2022 Task 5: Multi-Modal Multi-Transformer Misogynous
Meme Classification Framework [0.0]
マルチモーダル埋め込みおよびマルチラベルバイナリ分類タスクのための汎用フレームワークの構築に向けた作業について述べる。
我々はSemEval 2022コンペティションのタスク5(Multimedia Automatic Misogyny Identification)に参加している。
論文 参考訳(メタデータ) (2022-06-14T22:37:25Z) - UPB at SemEval-2022 Task 5: Enhancing UNITER with Image Sentiment and
Graph Convolutional Networks for Multimedia Automatic Misogyny Identification [0.3437656066916039]
本稿ではSemEval-2022 Task 5: MAMI - Multimedia Automatic Misogyny Identificationについて述べる。
私たちのベストモデルは、サブタスクAで71.4%、サブタスクBで67.3%のF1スコアに達し、トップボードの上位3分の1にチームを配置します。
論文 参考訳(メタデータ) (2022-05-29T21:12:36Z) - TIB-VA at SemEval-2022 Task 5: A Multimodal Architecture for the
Detection and Classification of Misogynous Memes [9.66022279280394]
本稿では,テキストと視覚的特徴を組み合わせたマルチモーダルアーキテクチャを提案する。
課題は、ある文書が偽造であるかどうかを分類することである。
論文 参考訳(メタデータ) (2022-04-13T11:03:21Z) - RubCSG at SemEval-2022 Task 5: Ensemble learning for identifying
misogynous MEMEs [12.979213013465882]
本研究は,SemEval 2022 Task 5: MAMI-Multimedia Automatic Misogyny Identificationのために開発された,様々なユニモーダルおよびバイモーダルモデルアーキテクチャに基づくアンサンブルシステムを提案する。
論文 参考訳(メタデータ) (2022-04-08T09:27:28Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。