論文の概要: A Review of Vision-Language Models and their Performance on the Hateful
Memes Challenge
- arxiv url: http://arxiv.org/abs/2305.06159v1
- Date: Tue, 9 May 2023 17:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 12:53:10.519671
- Title: A Review of Vision-Language Models and their Performance on the Hateful
Memes Challenge
- Title(参考訳): ヘイトフルミームチャレンジにおける視覚言語モデルとその性能のレビュー
- Authors: Bryan Zhao, Andrew Zhang, Blake Watson, Gillian Kearney, Isaac Dale
- Abstract要約: さまざまなモデルを探求し、Hateful Memes Challengeで何が最も効果的かを決定します。
ヘイトフルミームチャレンジ(Hateful Memes Challenge)は、コンテンツモデレーションにおける機械学習の研究をさらに進めるためのMetaによるチャレンジである。
その結果, 後期核融合は初期の核融合モデルよりも有意に低かった。
- 参考スコア(独自算出の注目度): 1.0499611180329804
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Moderation of social media content is currently a highly manual task, yet
there is too much content posted daily to do so effectively. With the advent of
a number of multimodal models, there is the potential to reduce the amount of
manual labor for this task. In this work, we aim to explore different models
and determine what is most effective for the Hateful Memes Challenge, a
challenge by Meta designed to further machine learning research in content
moderation. Specifically, we explore the differences between early fusion and
late fusion models in classifying multimodal memes containing text and images.
We first implement a baseline using unimodal models for text and images
separately using BERT and ResNet-152, respectively. The outputs from these
unimodal models were then concatenated together to create a late fusion model.
In terms of early fusion models, we implement ConcatBERT, VisualBERT, ViLT,
CLIP, and BridgeTower. It was found that late fusion performed significantly
worse than early fusion models, with the best performing model being CLIP which
achieved an AUROC of 70.06. The code for this work is available at
https://github.com/bzhao18/CS-7643-Project.
- Abstract(参考訳): ソーシャルメディアコンテンツのモデレーションは、現在非常に手作業で行われているが、効果的に行うには毎日投稿されるコンテンツが多すぎる。
多くのマルチモーダルモデルが登場したことで、このタスクに対する手作業の量を削減できる可能性がある。
本研究では,コンテンツモデレーションにおける機械学習研究をさらに進めるためのMetaの課題であるHateful Memes Challengeにおいて,さまざまなモデルを探索し,最も有効なものを決定することを目的とする。
具体的には,テキストと画像を含むマルチモーダルミームの分類において,早期融合モデルと後期融合モデルの違いを検討する。
まず,BERT と ResNet-152 を用いて,テキストと画像のユニモーダルモデルを用いてベースラインを実装した。
これらのユニモーダルモデルの出力は結合され、後期融合モデルが作成される。
初期の融合モデルでは、ConcatBERT、VisualBERT、ViLT、CLIP、BridgeTowerを実装しています。
後期核融合は初期の核融合モデルよりも大幅に悪化し、最も性能のよいモデルはCLIPで70.06のAUROCを達成した。
この作業のコードはhttps://github.com/bzhao18/cs-7643-projectで入手できる。
関連論文リスト
- FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.80920533793595]
ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。
FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-05T13:54:28Z) - MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。
本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:55:56Z) - Jointly Training Large Autoregressive Multimodal Models [37.32912103934043]
本稿では,既存のテキストと画像生成モデルを体系的に融合するモジュール方式であるJAMフレームワークを提案する。
また、混合モーダル生成タスクに適した、特殊的でデータ効率の高い命令チューニング戦略も導入する。
最後のインストラクションチューニングモデルは、高品質なマルチモーダル出力を生成する際の非並列性能を示す。
論文 参考訳(メタデータ) (2023-09-27T10:40:23Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - MoMo: A shared encoder Model for text, image and multi-Modal
representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文 参考訳(メタデータ) (2023-04-11T22:26:10Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。