論文の概要: Multimodal and Explainable Internet Meme Classification
- arxiv url: http://arxiv.org/abs/2212.05612v3
- Date: Fri, 7 Apr 2023 00:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 15:05:06.792249
- Title: Multimodal and Explainable Internet Meme Classification
- Title(参考訳): マルチモーダルおよび説明可能なインターネットミーム分類
- Authors: Abhinav Kumar Thakur, Filip Ilievski, H\^ong-\^An Sandlin, Zhivar
Sourati, Luca Luceri, Riccardo Tommasini and Alain Mermoud
- Abstract要約: インターネットのミーム理解のためのモジュールで説明可能なアーキテクチャを設計し実装する。
本研究では,Hate Speech Detection と Misogyny Classification の2つの既存のタスクにおいて,有害なミームを検出するためのモジュールモデルと説明可能なモデルの有効性について検討する。
ユーザフレンドリーなインターフェースを考案し、任意のミームに対してすべてのモデルから検索したサンプルの比較分析を容易にする。
- 参考スコア(独自算出の注目度): 3.4690152926833315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the current context where online platforms have been effectively
weaponized in a variety of geo-political events and social issues, Internet
memes make fair content moderation at scale even more difficult. Existing work
on meme classification and tracking has focused on black-box methods that do
not explicitly consider the semantics of the memes or the context of their
creation. In this paper, we pursue a modular and explainable architecture for
Internet meme understanding. We design and implement multimodal classification
methods that perform example- and prototype-based reasoning over training
cases, while leveraging both textual and visual SOTA models to represent the
individual cases. We study the relevance of our modular and explainable models
in detecting harmful memes on two existing tasks: Hate Speech Detection and
Misogyny Classification. We compare the performance between example- and
prototype-based methods, and between text, vision, and multimodal models,
across different categories of harmfulness (e.g., stereotype and
objectification). We devise a user-friendly interface that facilitates the
comparative analysis of examples retrieved by all of our models for any given
meme, informing the community about the strengths and limitations of these
explainable methods.
- Abstract(参考訳): オンラインプラットフォームが様々な地政学的イベントや社会問題で効果的に武器化されている現在の状況では、インターネットミームは大規模で公平なコンテンツのモデレーションをさらに難しくしている。
ミーム分類と追跡に関する既存の研究は、ミームの意味論やそれらの作成の文脈を明示的に考慮しないブラックボックスメソッドに焦点を当てている。
本稿では,インターネット・ミーム理解のためのモジュール型で説明可能なアーキテクチャを追求する。
我々は,実例とプロトタイプに基づく推論をトレーニングケース上で行うマルチモーダル分類法を設計・実装し,テキストモデルとビジュアルソータモデルの両方を利用して個々の事例を表現した。
既存の課題であるヘイトスピーチ検出とミソジニー分類における有害なミームの検出におけるモジュラーモデルと説明可能なモデルの関連性について検討した。
本研究は,サンプルベース手法とプロトタイプベース手法,テキストモデル,視覚モデル,マルチモーダルモデルのパフォーマンスを,有害性(ステレオタイプ,オブジェクト化など)の異なるカテゴリで比較する。
ユーザフレンドリなインターフェースを考案し,すべてのモデルが収集したサンプルの比較分析を容易にし,説明可能なメソッドの長所と短所をコミュニティに通知します。
関連論文リスト
- Towards Explainable Harmful Meme Detection through Multimodal Debate
between Large Language Models [18.181154544563416]
ソーシャルメディアの時代はインターネットのミームで溢れており、有害なものを明確に把握し、効果的に識別する必要がある。
既存の有害なミーム検出手法では、検出決定を支援するためにそのような暗黙的な意味を明らかにする読みやすい説明は提示されない。
本研究では,無害な位置と有害な位置の両方から矛盾する合理性を推論することで,有害なミームを検出するための説明可能なアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-24T08:37:16Z) - Meme-ingful Analysis: Enhanced Understanding of Cyberbullying in Memes
Through Multimodal Explanations [48.82168723932981]
Em MultiBully-Exは、コード混在型サイバーいじめミームからマルチモーダルな説明を行うための最初のベンチマークデータセットである。
ミームの視覚的およびテキスト的説明のために,コントラスト言語-画像事前学習 (CLIP) アプローチが提案されている。
論文 参考訳(メタデータ) (2024-01-18T11:24:30Z) - PromptMTopic: Unsupervised Multimodal Topic Modeling of Memes using
Large Language Models [7.388466146105024]
テキストと視覚の両方からトピックを学習する新しいマルチモーダルプロンプトベースモデルであるtextPromptMTopicを提案する。
本モデルは,テキストと視覚的モダリティ間の意味的相互作用を考慮して,ミームから学習したトピックを効果的に抽出し,クラスタ化する。
我々の研究は、今日の社会における重要なコミュニケーション形態であるミームの話題とテーマの理解に寄与する。
論文 参考訳(メタデータ) (2023-12-11T03:36:50Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - MultiViz: An Analysis Benchmark for Visualizing and Understanding
Multimodal Models [103.9987158554515]
MultiVizは、解釈可能性の問題を4段階に足場化することで、マルチモーダルモデルの振る舞いを分析する手法である。
MultiVizの相補的な段階は、モデル予測をシミュレートし、機能に解釈可能な概念を割り当て、モデル誤分類のエラー解析を行い、エラー解析からモデルデバッグへの洞察を利用することを可能にする。
論文 参考訳(メタデータ) (2022-06-30T18:42:06Z) - On Explaining Multimodal Hateful Meme Detection Models [4.509263496823139]
これらのモデルがマルチモーダルでデロゲーションまたはスラー参照をキャプチャできるかどうかは不明である。
その結果,画像のモダリティは,憎しみに満ちたミーム分類タスクに寄与することが判明した。
誤差分析の結果,視覚言語モデルではバイアスが得られ,偽陽性の予測が得られた。
論文 参考訳(メタデータ) (2022-04-04T15:35:41Z) - Open-Domain, Content-based, Multi-modal Fact-checking of Out-of-Context
Images via Online Resources [70.68526820807402]
実際のイメージは、コンテキストや要素を誤って表現することによって、他の物語をサポートするために再目的化される。
私たちのゴールは、画像とコンテキストのペアリングを事実チェックすることで、この時間を要する、推論集約的なプロセスを自動化する検査可能な方法です。
私たちの研究は、オープンドメイン、コンテンツベース、マルチモーダルなファクトチェックのための最初のステップとベンチマークを提供します。
論文 参考訳(メタデータ) (2021-11-30T19:36:20Z) - Caption Enriched Samples for Improving Hateful Memes Detection [78.5136090997431]
憎しみのあるミームの挑戦は、ミームが憎悪であるか否かを決定するのが困難であることを示している。
ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに到達できない。
論文 参考訳(メタデータ) (2021-09-22T10:57:51Z) - A Multimodal Framework for the Detection of Hateful Memes [16.7604156703965]
我々は憎しみのあるミームを検出するフレームワークの開発を目指している。
マルチモーダルとアンサンブル学習を促進するために,比較例のアップサンプリングの有効性を示す。
私たちの最良のアプローチは、UNITERベースのモデルのアンサンブルで構成され、80.53のAUROCスコアを達成し、Facebookが主催する2020 Hateful Memes Challengeのフェーズ2で4位になります。
論文 参考訳(メタデータ) (2020-12-23T18:37:11Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。