論文の概要: Detecting and Correcting Hate Speech in Multimodal Memes with Large
Visual Language Model
- arxiv url: http://arxiv.org/abs/2311.06737v1
- Date: Sun, 12 Nov 2023 05:20:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 17:04:32.027096
- Title: Detecting and Correcting Hate Speech in Multimodal Memes with Large
Visual Language Model
- Title(参考訳): 大規模視覚言語モデルを用いたマルチモーダルミームにおけるヘイトスピーチの検出と修正
- Authors: Minh-Hao Van, Xintao Wu
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理において注目されている。
LLaVA、Flamingo、GPT-4などの視覚言語モデル(VLM)は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 15.274323361535702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, large language models (LLMs) have taken the spotlight in natural
language processing. Further, integrating LLMs with vision enables the users to
explore more emergent abilities in multimodality. Visual language models
(VLMs), such as LLaVA, Flamingo, or GPT-4, have demonstrated impressive
performance on various visio-linguistic tasks. Consequently, there are enormous
applications of large models that could be potentially used on social media
platforms. Despite that, there is a lack of related work on detecting or
correcting hateful memes with VLMs. In this work, we study the ability of VLMs
on hateful meme detection and hateful meme correction tasks with zero-shot
prompting. From our empirical experiments, we show the effectiveness of the
pretrained LLaVA model and discuss its strengths and weaknesses in these tasks.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) が自然言語処理において注目されている。
さらに、視覚にllmsを統合することで、ユーザはマルチモダリティにおけるより創発的な能力を探求できる。
LLaVA、Flamingo、GPT-4などの視覚言語モデル(VLM)は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。
その結果、ソーシャルメディアプラットフォームで使用可能な巨大なモデルには膨大な応用がある。
しかしながら、VLMによる憎しみのあるミームの検出や修正には、関連する作業が欠如している。
本研究では,ゼロショットプロンプトによる憎悪なミーム検出および憎悪なミーム修正タスクにおけるVLMの能力について検討する。
実証実験から,事前学習したLLaVAモデルの有効性を示し,これらの課題の長所と短所について考察する。
関連論文リスト
- Eve: Efficient Multimodal Vision Language Models with Elastic Visual Experts [37.81475180129456]
我々は、弾力的なビジュアルエキスパートによる効率的な視覚言語モデル(Eve)の革新的なフレームワークを紹介します。
訓練の複数の段階で視覚的専門知識を戦略的に取り入れることで、Eveは言語能力の保存とマルチモーダル能力の増強のバランスを取る。
言語ベンチマークでは明らかに優れており、VLMベンチマークでは68.87%の結果が得られた。
論文 参考訳(メタデータ) (2025-01-08T07:42:54Z) - Liquid: Language Models are Scalable Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。
従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。
初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文 参考訳(メタデータ) (2024-12-05T16:48:16Z) - Training-Free Mitigation of Language Reasoning Degradation After Multimodal Instruction Tuning [9.824152397546719]
マルチモーダルモデルは通常、強力な大規模言語モデル(LLM)とビジョンエンコーダを組み合わせて、命令チューニングを通じてマルチモーダルデータで訓練される。
言語推論性能に対するマルチモーダル・インストラクション・チューニングの効果について検討する。
論文 参考訳(メタデータ) (2024-12-04T16:56:20Z) - Are Bigger Encoders Always Better in Vision Large Models? [21.797332686137203]
マルチモーダルな大言語モデル (MLLM) は、現実世界の応用において大きな可能性を示している。
現在の主流パラダイム下での視覚言語モデル(VLM)のスケーリング傾向は、広く研究されていない。
我々は,異なるエンコーダサイズと大言語モデル(LLM)サイズを用いて,MLLMの事前学習段階の実験を行う。
論文 参考訳(メタデータ) (2024-08-01T15:05:42Z) - MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。
私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-07-17T16:31:38Z) - LM4LV: A Frozen Large Language Model for Low-level Vision Tasks [25.3601306724822]
$textbfLM4LV$は、大規模な言語モデルで、マルチモーダルデータや事前データなしで、さまざまな低レベルの視覚タスクを解決できるフレームワークである。
これは低レベルのビジョンにおけるLLMの強い可能性を示し、MLLMと低レベルのビジョンタスクの間のギャップを埋める。
論文 参考訳(メタデータ) (2024-05-24T17:25:00Z) - Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models [25.724995114710165]
マルチモーダル小言語モデル(Multimodal Small Language Models, MLM)の設計側面について検討し, Mipha という名前の効率的なマルチモーダルアシスタントを提案する。
私たちのMipha-3Bは、最先端の大規模MLLM、特にLLaVA-1.5-13Bを複数のベンチマークで上回ります。
論文 参考訳(メタデータ) (2024-03-10T12:43:27Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。