Fugu-MT 論文翻訳(概要): A Review of Vision-Language Models and their Performance on the Hateful Memes Challenge

論文の概要: A Review of Vision-Language Models and their Performance on the Hateful Memes Challenge

arxiv url: http://arxiv.org/abs/2305.06159v1
Date: Tue, 9 May 2023 17:55:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-11 12:53:10.519671
Title: A Review of Vision-Language Models and their Performance on the Hateful Memes Challenge
Title（参考訳）: ヘイトフルミームチャレンジにおける視覚言語モデルとその性能のレビュー
Authors: Bryan Zhao, Andrew Zhang, Blake Watson, Gillian Kearney, Isaac Dale
Abstract要約: さまざまなモデルを探求し、Hateful Memes Challengeで何が最も効果的かを決定します。ヘイトフルミームチャレンジ(Hateful Memes Challenge)は、コンテンツモデレーションにおける機械学習の研究をさらに進めるためのMetaによるチャレンジである。その結果, 後期核融合は初期の核融合モデルよりも有意に低かった。
参考スコア（独自算出の注目度）: 1.0499611180329804
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Moderation of social media content is currently a highly manual task, yet there is too much content posted daily to do so effectively. With the advent of a number of multimodal models, there is the potential to reduce the amount of manual labor for this task. In this work, we aim to explore different models and determine what is most effective for the Hateful Memes Challenge, a challenge by Meta designed to further machine learning research in content moderation. Specifically, we explore the differences between early fusion and late fusion models in classifying multimodal memes containing text and images. We first implement a baseline using unimodal models for text and images separately using BERT and ResNet-152, respectively. The outputs from these unimodal models were then concatenated together to create a late fusion model. In terms of early fusion models, we implement ConcatBERT, VisualBERT, ViLT, CLIP, and BridgeTower. It was found that late fusion performed significantly worse than early fusion models, with the best performing model being CLIP which achieved an AUROC of 70.06. The code for this work is available at https://github.com/bzhao18/CS-7643-Project.
Abstract（参考訳）: ソーシャルメディアコンテンツのモデレーションは、現在非常に手作業で行われているが、効果的に行うには毎日投稿されるコンテンツが多すぎる。多くのマルチモーダルモデルが登場したことで、このタスクに対する手作業の量を削減できる可能性がある。本研究では,コンテンツモデレーションにおける機械学習研究をさらに進めるためのMetaの課題であるHateful Memes Challengeにおいて,さまざまなモデルを探索し,最も有効なものを決定することを目的とする。具体的には,テキストと画像を含むマルチモーダルミームの分類において,早期融合モデルと後期融合モデルの違いを検討する。まず,BERT と ResNet-152 を用いて,テキストと画像のユニモーダルモデルを用いてベースラインを実装した。これらのユニモーダルモデルの出力は結合され、後期融合モデルが作成される。初期の融合モデルでは、ConcatBERT、VisualBERT、ViLT、CLIP、BridgeTowerを実装しています。後期核融合は初期の核融合モデルよりも大幅に悪化し、最も性能のよいモデルはCLIPで70.06のAUROCを達成した。この作業のコードはhttps://github.com/bzhao18/cs-7643-projectで入手できる。

関連論文リスト

FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens [56.752362642658504]
マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。本稿では,テキストと画像トークンの拡張語彙で動作する単一のトランスフォーマーモデルを提案する。本稿では,VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて,FuseLIPが他の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:27:12Z)
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.80920533793595]
ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。 FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文参考訳（メタデータ） (2024-06-05T13:54:28Z)
MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-15T17:55:56Z)
Jointly Training Large Autoregressive Multimodal Models [37.32912103934043]
本稿では,既存のテキストと画像生成モデルを体系的に融合するモジュール方式であるJAMフレームワークを提案する。また、混合モーダル生成タスクに適した、特殊的でデータ効率の高い命令チューニング戦略も導入する。最後のインストラクションチューニングモデルは、高品質なマルチモーダル出力を生成する際の非並列性能を示す。
論文参考訳（メタデータ） (2023-09-27T10:40:23Z)
UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文参考訳（メタデータ） (2023-07-30T09:48:36Z)
Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか? 彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文参考訳（メタデータ） (2023-06-15T06:45:46Z)
Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文参考訳（メタデータ） (2023-05-26T19:22:03Z)
MoMo: A shared encoder Model for text, image and multi-Modal representations [4.812718493682455]
本稿では,複数の視覚,言語,マルチモーダルベンチマークにおいて,強力な結果が得られる自己教師付き共有エンコーダモデルを提案する。我々は、すべてのエンコーダ層がテキストと画像のモダリティの両方を処理する単一のトランスフォーマーを使用する。
論文参考訳（メタデータ） (2023-04-11T22:26:10Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文参考訳（メタデータ） (2020-03-30T03:13:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。