論文の概要: Enhance Multimodal Model Performance with Data Augmentation: Facebook
Hateful Meme Challenge Solution
- arxiv url: http://arxiv.org/abs/2105.13132v1
- Date: Tue, 25 May 2021 01:07:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:03:44.768464
- Title: Enhance Multimodal Model Performance with Data Augmentation: Facebook
Hateful Meme Challenge Solution
- Title(参考訳): データ拡張によるマルチモーダルモデルパフォーマンスの強化: Facebookのヘイトなミームチャレンジソリューション
- Authors: Yang Li, Zinc Zhang, Hutchin Huang
- Abstract要約: Facebookのヘイトフルミームチャレンジ(Hateful Memes Challenge)は、ヘイトフルスピーチを検出するために競技者に挑戦することで、そのような可能性を達成するのに役立つ。
本稿では,VilBERT と Visual BERT を用いたマルチモーダル・事前学習モデルを提案する。
提案手法は0.7439 AUROCを精度0.7037で達成し,顕著な進歩を示した。
- 参考スコア(独自算出の注目度): 3.8325907381729496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hateful content detection is one of the areas where deep learning can and
should make a significant difference. The Hateful Memes Challenge from Facebook
helps fulfill such potential by challenging the contestants to detect hateful
speech in multi-modal memes using deep learning algorithms. In this paper, we
utilize multi-modal, pre-trained models VilBERT and Visual BERT. We improved
models' performance by adding training datasets generated from data
augmentation. Enlarging the training data set helped us get a more than 2%
boost in terms of AUROC with the Visual BERT model. Our approach achieved
0.7439 AUROC along with an accuracy of 0.7037 on the challenge's test set,
which revealed remarkable progress.
- Abstract(参考訳): 有害なコンテンツ検出は、ディープラーニングが実現し、大きな違いをもたらす分野のひとつです。
FacebookのHateful Memes Challengeは、ディープラーニングアルゴリズムを使用したマルチモーダルミームにおけるヘイトフルスピーチの検出に挑戦することで、そのような可能性を達成するのに役立つ。
本稿では,VilBERT と Visual BERT を用いたマルチモーダル・事前学習モデルを提案する。
データ拡張から生成されたトレーニングデータセットを追加することで、モデルのパフォーマンスを改善した。
トレーニングデータセットの拡大は、Visual BERTモデルでAUROCを2%以上向上させるのに役立ちました。
提案手法は0.7439 AUROCを精度0.7037で達成し,顕著な進歩を示した。
関連論文リスト
- Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Leveraging Demonstrations to Improve Online Learning: Quality Matters [54.98983862640944]
改善の度合いは実演データの品質に左右されることが示されている。
ベイズの法則を通したコヒーレントな方法で実演データを利用する情報TSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T08:49:12Z) - Multi-dataset Training of Transformers for Robust Action Recognition [75.5695991766902]
動作認識のための複数のデータセットをうまく一般化することを目的として,ロバストな特徴表現の課題について検討する。
本稿では、情報損失と投影損失という2つの新しい損失項を設計した、新しいマルチデータセットトレーニングパラダイムであるMultiTrainを提案する。
本研究では,Kineetics-400,Kineetics-700,Moments-in-Time,Activitynet,Some-something-v2の5つの課題データセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-09-26T01:30:43Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z) - Hateful Memes Challenge: An Enhanced Multimodal Framework [0.0]
Facebook AIが提案したHateful Meme Challengeは、世界中の参加者を惹きつけている。
この問題に対して様々な最先端のディープラーニングモデルが適用されている。
本稿では,特徴抽出にTectronを活用することを含め,ヘイトフル検出の枠組みを強化する。
論文 参考訳(メタデータ) (2021-12-20T07:47:17Z) - Classification of Multimodal Hate Speech -- The Winning Solution of
Hateful Memes Challenge [0.0]
Hateful Memesは、マルチモーダル分類のための新しい課題セットである。
データセットに難易度のある例を追加して、ユニモーダル信号への依存を難しくする。
本稿では,マルチモーダルとルールを組み合わせた新しいモデルを提案し,それぞれ86.8%,0.923の精度でAUROCをランク付けする。
論文 参考訳(メタデータ) (2020-12-02T07:38:26Z) - Recognizing More Emotions with Less Data Using Self-supervised Transfer
Learning [0.0]
本稿では,音声認識のための新しい伝達学習手法を提案する。
感情のクラス毎の125のサンプルでは、8倍のデータでトレーニングされた強いベースラインよりも高い精度を達成できたのです。
論文 参考訳(メタデータ) (2020-11-11T06:18:31Z) - The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes [43.778346545763654]
本研究は,マルチモーダルなミームにおけるヘイトスピーチの検出に着目した,マルチモーダルな分類のための新しい課題セットを提案する。
ユニモーダルモデルが苦戦し、マルチモーダルモデルのみが成功するように構築されている。
最先端の手法は人間に比べて性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-05-10T21:31:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。