論文の概要: A Review of Vision-Language Models and their Performance on the Hateful
Memes Challenge
- arxiv url: http://arxiv.org/abs/2305.06159v1
- Date: Tue, 9 May 2023 17:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 12:53:10.519671
- Title: A Review of Vision-Language Models and their Performance on the Hateful
Memes Challenge
- Title(参考訳): ヘイトフルミームチャレンジにおける視覚言語モデルとその性能のレビュー
- Authors: Bryan Zhao, Andrew Zhang, Blake Watson, Gillian Kearney, Isaac Dale
- Abstract要約: さまざまなモデルを探求し、Hateful Memes Challengeで何が最も効果的かを決定します。
ヘイトフルミームチャレンジ(Hateful Memes Challenge)は、コンテンツモデレーションにおける機械学習の研究をさらに進めるためのMetaによるチャレンジである。
その結果, 後期核融合は初期の核融合モデルよりも有意に低かった。
- 参考スコア(独自算出の注目度): 1.0499611180329804
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Moderation of social media content is currently a highly manual task, yet
there is too much content posted daily to do so effectively. With the advent of
a number of multimodal models, there is the potential to reduce the amount of
manual labor for this task. In this work, we aim to explore different models
and determine what is most effective for the Hateful Memes Challenge, a
challenge by Meta designed to further machine learning research in content
moderation. Specifically, we explore the differences between early fusion and
late fusion models in classifying multimodal memes containing text and images.
We first implement a baseline using unimodal models for text and images
separately using BERT and ResNet-152, respectively. The outputs from these
unimodal models were then concatenated together to create a late fusion model.
In terms of early fusion models, we implement ConcatBERT, VisualBERT, ViLT,
CLIP, and BridgeTower. It was found that late fusion performed significantly
worse than early fusion models, with the best performing model being CLIP which
achieved an AUROC of 70.06. The code for this work is available at
https://github.com/bzhao18/CS-7643-Project.
- Abstract(参考訳): ソーシャルメディアコンテンツのモデレーションは、現在非常に手作業で行われているが、効果的に行うには毎日投稿されるコンテンツが多すぎる。
多くのマルチモーダルモデルが登場したことで、このタスクに対する手作業の量を削減できる可能性がある。
本研究では,コンテンツモデレーションにおける機械学習研究をさらに進めるためのMetaの課題であるHateful Memes Challengeにおいて,さまざまなモデルを探索し,最も有効なものを決定することを目的とする。
具体的には,テキストと画像を含むマルチモーダルミームの分類において,早期融合モデルと後期融合モデルの違いを検討する。
まず,BERT と ResNet-152 を用いて,テキストと画像のユニモーダルモデルを用いてベースラインを実装した。
これらのユニモーダルモデルの出力は結合され、後期融合モデルが作成される。
初期の融合モデルでは、ConcatBERT、VisualBERT、ViLT、CLIP、BridgeTowerを実装しています。
後期核融合は初期の核融合モデルよりも大幅に悪化し、最も性能のよいモデルはCLIPで70.06のAUROCを達成した。
この作業のコードはhttps://github.com/bzhao18/cs-7643-projectで入手できる。
関連論文リスト
- MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。
本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:55:56Z) - Multimodal Fusion with Pre-Trained Model Features in Affective Behaviour Analysis In-the-wild [37.32217405723552]
本稿では,表現(Expr)認識とValence-Arousal(VA)推定の課題に対処するためのアプローチを提案する。
我々は,事前学習モデルを用いてAff-Wild2データベースを評価し,モデルの最終層を特徴として抽出する。
抽出した特徴を整合させる前処理や畳み込みに続いて、異なるモデルがモーダル融合に使用される。
論文 参考訳(メタデータ) (2024-03-22T09:00:24Z) - Jointly Training Large Autoregressive Multimodal Models [37.32912103934043]
本稿では,既存のテキストと画像生成モデルを体系的に融合するモジュール方式であるJAMフレームワークを提案する。
また、混合モーダル生成タスクに適した、特殊的でデータ効率の高い命令チューニング戦略も導入する。
最後のインストラクションチューニングモデルは、高品質なマルチモーダル出力を生成する際の非並列性能を示す。
論文 参考訳(メタデータ) (2023-09-27T10:40:23Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - MoMo: A shared encoder Model for text, image and multi-Modal
representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。
我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文 参考訳(メタデータ) (2023-04-11T22:26:10Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。