論文の概要: Detecting and Correcting Hate Speech in Multimodal Memes with Large
Visual Language Model
- arxiv url: http://arxiv.org/abs/2311.06737v1
- Date: Sun, 12 Nov 2023 05:20:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 17:04:32.027096
- Title: Detecting and Correcting Hate Speech in Multimodal Memes with Large
Visual Language Model
- Title(参考訳): 大規模視覚言語モデルを用いたマルチモーダルミームにおけるヘイトスピーチの検出と修正
- Authors: Minh-Hao Van, Xintao Wu
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理において注目されている。
LLaVA、Flamingo、GPT-4などの視覚言語モデル(VLM)は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 15.274323361535702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, large language models (LLMs) have taken the spotlight in natural
language processing. Further, integrating LLMs with vision enables the users to
explore more emergent abilities in multimodality. Visual language models
(VLMs), such as LLaVA, Flamingo, or GPT-4, have demonstrated impressive
performance on various visio-linguistic tasks. Consequently, there are enormous
applications of large models that could be potentially used on social media
platforms. Despite that, there is a lack of related work on detecting or
correcting hateful memes with VLMs. In this work, we study the ability of VLMs
on hateful meme detection and hateful meme correction tasks with zero-shot
prompting. From our empirical experiments, we show the effectiveness of the
pretrained LLaVA model and discuss its strengths and weaknesses in these tasks.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) が自然言語処理において注目されている。
さらに、視覚にllmsを統合することで、ユーザはマルチモダリティにおけるより創発的な能力を探求できる。
LLaVA、Flamingo、GPT-4などの視覚言語モデル(VLM)は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。
その結果、ソーシャルメディアプラットフォームで使用可能な巨大なモデルには膨大な応用がある。
しかしながら、VLMによる憎しみのあるミームの検出や修正には、関連する作業が欠如している。
本研究では,ゼロショットプロンプトによる憎悪なミーム検出および憎悪なミーム修正タスクにおけるVLMの能力について検討する。
実証実験から,事前学習したLLaVAモデルの有効性を示し,これらの課題の長所と短所について考察する。
関連論文リスト
- MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。
私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-07-17T16:31:38Z) - LM4LV: A Frozen Large Language Model for Low-level Vision Tasks [25.3601306724822]
$textbfLM4LV$は、大規模な言語モデルで、マルチモーダルデータや事前データなしで、さまざまな低レベルの視覚タスクを解決できるフレームワークである。
これは低レベルのビジョンにおけるLLMの強い可能性を示し、MLLMと低レベルのビジョンタスクの間のギャップを埋める。
論文 参考訳(メタデータ) (2024-05-24T17:25:00Z) - Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models [25.724995114710165]
マルチモーダル小言語モデル(Multimodal Small Language Models, MLM)の設計側面について検討し, Mipha という名前の効率的なマルチモーダルアシスタントを提案する。
私たちのMipha-3Bは、最先端の大規模MLLM、特にLLaVA-1.5-13Bを複数のベンチマークで上回ります。
論文 参考訳(メタデータ) (2024-03-10T12:43:27Z) - On Large Visual Language Models for Medical Imaging Analysis: An
Empirical Study [13.972931873011914]
大規模言語モデル(LLM)は自然言語処理において注目されている。
LLaVA、Flamingo、CLIPといったビジュアル言語モデル(VLM)は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T23:01:38Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Large Language Models are Visual Reasoning Coordinators [144.67558375045755]
視覚的推論のために複数の視覚言語モデルを協調する新しいパラダイムを提案する。
提案手法は,視覚的質問応答における最先端性能を実現するため,命令チューニングの変種であるCola-FTを提案する。
また,テキスト内学習の変種であるCola-Zeroは,ゼロおよび少数ショット設定で競合性能を示すことを示す。
論文 参考訳(メタデータ) (2023-10-23T17:59:31Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。