論文の概要: On Explaining Multimodal Hateful Meme Detection Models
- arxiv url: http://arxiv.org/abs/2204.01734v1
- Date: Mon, 4 Apr 2022 15:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 01:31:48.638745
- Title: On Explaining Multimodal Hateful Meme Detection Models
- Title(参考訳): マルチモーダルヘイトフルミーム検出モデルの説明について
- Authors: Ming Shan Hee, Roy Ka-Wei Lee, Wen-Haw Chong
- Abstract要約: これらのモデルがマルチモーダルでデロゲーションまたはスラー参照をキャプチャできるかどうかは不明である。
その結果,画像のモダリティは,憎しみに満ちたミーム分類タスクに寄与することが判明した。
誤差分析の結果,視覚言語モデルではバイアスが得られ,偽陽性の予測が得られた。
- 参考スコア(独自算出の注目度): 4.509263496823139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hateful meme detection is a new multimodal task that has gained significant
traction in academic and industry research communities. Recently, researchers
have applied pre-trained visual-linguistic models to perform the multimodal
classification task, and some of these solutions have yielded promising
results. However, what these visual-linguistic models learn for the hateful
meme classification task remains unclear. For instance, it is unclear if these
models are able to capture the derogatory or slurs references in multimodality
(i.e., image and text) of the hateful memes. To fill this research gap, this
paper propose three research questions to improve our understanding of these
visual-linguistic models performing the hateful meme classification task. We
found that the image modality contributes more to the hateful meme
classification task, and the visual-linguistic models are able to perform
visual-text slurs grounding to a certain extent. Our error analysis also shows
that the visual-linguistic models have acquired biases, which resulted in
false-positive predictions.
- Abstract(参考訳): ヘイトフルミーム検出は,学術・産業研究コミュニティで大きな注目を集めている新しいマルチモーダルタスクである。
近年,学習済みの視覚言語モデルを用いてマルチモーダル分類作業を行い,その一部は有望な結果を得た。
しかし、これらの視覚言語モデルが憎悪的なミーム分類タスクに何を学ぶかは、まだ明らかではない。
例えば、これらのモデルが、憎しみのあるミームのマルチモーダル(画像とテキスト)におけるデロゲーションまたはスラー参照をキャプチャできるかどうかは不明である。
本稿では,この研究ギャップを埋めるために,憎悪なミーム分類タスクを実行する視覚言語モデルに対する理解を深めるための3つの研究課題を提案する。
画像モダリティは嫌悪感のあるミーム分類タスクに寄与し,視覚言語モデルでは視覚的テキストスラリー処理をある程度行うことができることがわかった。
誤差分析の結果,視覚言語モデルにバイアスが与えられ,偽陽性の予測が得られた。
関連論文リスト
- Multimodal and Explainable Internet Meme Classification [3.4690152926833315]
インターネットのミーム理解のためのモジュールで説明可能なアーキテクチャを設計し実装する。
本研究では,Hate Speech Detection と Misogyny Classification の2つの既存のタスクにおいて,有害なミームを検出するためのモジュールモデルと説明可能なモデルの有効性について検討する。
ユーザフレンドリーなインターフェースを考案し、任意のミームに対してすべてのモデルから検索したサンプルの比較分析を容易にする。
論文 参考訳(メタデータ) (2022-12-11T21:52:21Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - Dependent Multi-Task Learning with Causal Intervention for Image
Captioning [10.6405791176668]
本稿では、因果的介入(DMTCI)を伴う依存型マルチタスク学習フレームワークを提案する。
まず、中間タスク、カテゴリの袋生成、最終タスクの前に、画像キャプションを伴います。
次に、pearlのdo-calculusをモデルに適用し、視覚的特徴と共同設立者のつながりを取り除きます。
最後に,エンド・ツー・エンドのトレーニングを可能にし,タスク間エラーの蓄積を低減するために,マルチエージェント強化学習戦略を用いる。
論文 参考訳(メタデータ) (2021-05-18T14:57:33Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z) - Detecting Hate Speech in Multi-modal Memes [14.036769355498546]
我々は,マルチモーダルミームにおけるヘイトスピーチ検出に着目し,ミームが興味深いマルチモーダル融合問題を引き起こす。
Facebook Meme Challenge citekiela 2020hatefulは、ミームが憎悪であるかどうかを予測するバイナリ分類問題を解決することを目的としている。
論文 参考訳(メタデータ) (2020-12-29T18:30:00Z) - A Multimodal Framework for the Detection of Hateful Memes [16.7604156703965]
我々は憎しみのあるミームを検出するフレームワークの開発を目指している。
マルチモーダルとアンサンブル学習を促進するために,比較例のアップサンプリングの有効性を示す。
私たちの最良のアプローチは、UNITERベースのモデルのアンサンブルで構成され、80.53のAUROCスコアを達成し、Facebookが主催する2020 Hateful Memes Challengeのフェーズ2で4位になります。
論文 参考訳(メタデータ) (2020-12-23T18:37:11Z) - Exploring Simple Siamese Representation Learning [68.37628268182185]
i) 負のサンプル対, (ii) 大きいバッチ, (iii) 運動量エンコーダを用いて, 単純なシームズネットワークは意味のある表現を学習できることを示す。
実験により, 崩壊解は損失や構造に対して存在するが, 崩壊を防止する上では, 停止段階の操作が重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2020-11-20T18:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。