Fugu-MT 論文翻訳(概要): Detecting and Correcting Hate Speech in Multimodal Memes with Large Visual Language Model

論文の概要: Detecting and Correcting Hate Speech in Multimodal Memes with Large Visual Language Model

arxiv url: http://arxiv.org/abs/2311.06737v1
Date: Sun, 12 Nov 2023 05:20:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 17:04:32.027096
Title: Detecting and Correcting Hate Speech in Multimodal Memes with Large Visual Language Model
Title（参考訳）: 大規模視覚言語モデルを用いたマルチモーダルミームにおけるヘイトスピーチの検出と修正
Authors: Minh-Hao Van, Xintao Wu
Abstract要約: 大規模言語モデル(LLM)は自然言語処理において注目されている。 LLaVA、Flamingo、GPT-4などの視覚言語モデル(VLM)は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。
参考スコア（独自算出の注目度）: 15.274323361535702
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, large language models (LLMs) have taken the spotlight in natural language processing. Further, integrating LLMs with vision enables the users to explore more emergent abilities in multimodality. Visual language models (VLMs), such as LLaVA, Flamingo, or GPT-4, have demonstrated impressive performance on various visio-linguistic tasks. Consequently, there are enormous applications of large models that could be potentially used on social media platforms. Despite that, there is a lack of related work on detecting or correcting hateful memes with VLMs. In this work, we study the ability of VLMs on hateful meme detection and hateful meme correction tasks with zero-shot prompting. From our empirical experiments, we show the effectiveness of the pretrained LLaVA model and discuss its strengths and weaknesses in these tasks.
Abstract（参考訳）: 近年,大規模言語モデル (LLM) が自然言語処理において注目されている。さらに、視覚にllmsを統合することで、ユーザはマルチモダリティにおけるより創発的な能力を探求できる。 LLaVA、Flamingo、GPT-4などの視覚言語モデル(VLM)は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。その結果、ソーシャルメディアプラットフォームで使用可能な巨大なモデルには膨大な応用がある。しかしながら、VLMによる憎しみのあるミームの検出や修正には、関連する作業が欠如している。本研究では,ゼロショットプロンプトによる憎悪なミーム検出および憎悪なミーム修正タスクにおけるVLMの能力について検討する。実証実験から,事前学習したLLaVAモデルの有効性を示し,これらの課題の長所と短所について考察する。

関連論文リスト

Eve: Efficient Multimodal Vision Language Models with Elastic Visual Experts [37.81475180129456]
我々は、弾力的なビジュアルエキスパートによる効率的な視覚言語モデル(Eve)の革新的なフレームワークを紹介します。訓練の複数の段階で視覚的専門知識を戦略的に取り入れることで、Eveは言語能力の保存とマルチモーダル能力の増強のバランスを取る。言語ベンチマークでは明らかに優れており、VLMベンチマークでは68.87%の結果が得られた。
論文参考訳（メタデータ） (2025-01-08T07:42:54Z)
Liquid: Language Models are Scalable and Unified Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文参考訳（メタデータ） (2024-12-05T16:48:16Z)
Training-Free Mitigation of Language Reasoning Degradation After Multimodal Instruction Tuning [9.824152397546719]
マルチモーダルモデルは通常、強力な大規模言語モデル(LLM)とビジョンエンコーダを組み合わせて、命令チューニングを通じてマルチモーダルデータで訓練される。言語推論性能に対するマルチモーダル・インストラクション・チューニングの効果について検討する。
論文参考訳（メタデータ） (2024-12-04T16:56:20Z)
Are Bigger Encoders Always Better in Vision Large Models? [21.797332686137203]
マルチモーダルな大言語モデル (MLLM) は、現実世界の応用において大きな可能性を示している。現在の主流パラダイム下での視覚言語モデル(VLM)のスケーリング傾向は、広く研究されていない。我々は,異なるエンコーダサイズと大言語モデル(LLM)サイズを用いて,MLLMの事前学習段階の実験を行う。
論文参考訳（メタデータ） (2024-08-01T15:05:42Z)
MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文参考訳（メタデータ） (2024-07-17T16:31:38Z)
LM4LV: A Frozen Large Language Model for Low-level Vision Tasks [25.3601306724822]
$textbfLM4LV$は、大規模な言語モデルで、マルチモーダルデータや事前データなしで、さまざまな低レベルの視覚タスクを解決できるフレームワークである。これは低レベルのビジョンにおけるLLMの強い可能性を示し、MLLMと低レベルのビジョンタスクの間のギャップを埋める。
論文参考訳（メタデータ） (2024-05-24T17:25:00Z)
Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models [25.724995114710165]
マルチモーダル小言語モデル(Multimodal Small Language Models, MLM)の設計側面について検討し, Mipha という名前の効率的なマルチモーダルアシスタントを提案する。私たちのMipha-3Bは、最先端の大規模MLLM、特にLLaVA-1.5-13Bを複数のベンチマークで上回ります。
論文参考訳（メタデータ） (2024-03-10T12:43:27Z)
On Large Visual Language Models for Medical Imaging Analysis: An Empirical Study [13.972931873011914]
大規模言語モデル(LLM)は自然言語処理において注目されている。 LLaVA、Flamingo、CLIPといったビジュアル言語モデル(VLM)は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-21T23:01:38Z)
Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。 CLIP-blind pairs'(CLIP-blind pairs)を識別する。様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文参考訳（メタデータ） (2024-01-11T18:58:36Z)
Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文参考訳（メタデータ） (2023-12-05T07:29:14Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)
LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文参考訳（メタデータ） (2023-11-20T15:56:44Z)
Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。ネガティブな対立や干渉はパフォーマンスに悪影響を及ぼすかもしれない我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文参考訳（メタデータ） (2023-11-05T15:48:29Z)
Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。 MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文参考訳（メタデータ） (2023-05-24T11:06:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。