論文の概要: On VLMs for Diverse Tasks in Multimodal Meme Classification
- arxiv url: http://arxiv.org/abs/2505.20937v1
- Date: Tue, 27 May 2025 09:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.544718
- Title: On VLMs for Diverse Tasks in Multimodal Meme Classification
- Title(参考訳): マルチモーダルミーム分類における多変数タスクのVLMについて
- Authors: Deepesh Gavit, Debajyoti Mazumder, Samiran Das, Jasabanta Patro,
- Abstract要約: 本稿では,異なるミーム分類タスクのための視覚言語モデル(VLM)を包括的かつ体系的に分析する。
本稿では,VLMによるミーム画像の理解と,組込みミームテキストのテキスト理解に基づく精細化を実現する手法を提案する。
- 参考スコア(独自算出の注目度): 1.0249620437941
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we present a comprehensive and systematic analysis of vision-language models (VLMs) for disparate meme classification tasks. We introduced a novel approach that generates a VLM-based understanding of meme images and fine-tunes the LLMs on textual understanding of the embedded meme text for improving the performance. Our contributions are threefold: (1) Benchmarking VLMs with diverse prompting strategies purposely to each sub-task; (2) Evaluating LoRA fine-tuning across all VLM components to assess performance gains; and (3) Proposing a novel approach where detailed meme interpretations generated by VLMs are used to train smaller language models (LLMs), significantly improving classification. The strategy of combining VLMs with LLMs improved the baseline performance by 8.34%, 3.52% and 26.24% for sarcasm, offensive and sentiment classification, respectively. Our results reveal the strengths and limitations of VLMs and present a novel strategy for meme understanding.
- Abstract(参考訳): 本稿では,異なるミーム分類タスクのための視覚言語モデル(VLM)を包括的かつ体系的に分析する。
我々は,VLMによるミーム画像の理解と,組込みミームテキストのテキスト理解に基づく精細化を実現する手法を提案する。
1)各サブタスクに対して多様なプロンプト戦略を持つVLMのベンチマーク,(2)性能向上を評価するために全VLMコンポーネントに対してLoRAの微調整を評価すること,(3)より小さな言語モデル(LLM)を学習するためにVLMによって生成された詳細なミーム解釈を使用する新しいアプローチを提案すること,などである。
VLMとLCMを組み合わせる戦略は、それぞれ皮肉、攻撃、感情の分類において、ベースライン性能を8.34%、3.52%、26.24%改善した。
本稿では,VLMの強みと限界を明らかにし,ミーム理解のための新たな戦略を提案する。
関連論文リスト
- Scoring with Large Language Models: A Study on Measuring Empathy of Responses in Dialogues [3.2162648244439684]
本研究では,対話における応答の共感を測り,評価する上で,大規模言語モデルがいかに効果的かを調べるための枠組みを開発する。
我々の戦略は、最新かつ微調整されたLLMの性能を明示的で説明可能な特徴で近似することである。
以上の結果から,組込みのみを用いる場合,ジェネリックLLMに近い性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-28T20:37:57Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models [44.82179903133343]
GLOVは、大型言語モデル(LLM)が視覚言語モデル(VLM)の暗黙エンコーダとして機能することを可能にする。
GLOVは、オブジェクト認識のためのデュアルエンコーダ(CLIP)とVLデコーダ(LlaVA)モデルに対して、最大15.0%と57.5%の性能向上を示す。
論文 参考訳(メタデータ) (2024-10-08T15:55:40Z) - Learning To See But Forgetting To Follow: Visual Instruction Tuning Makes LLMs More Prone To Jailbreak Attacks [41.213482317141356]
画像理解機能を備えた大規模言語モデルの拡張は、高パフォーマンスな視覚言語モデル(VLM)のブームをもたらした。
本稿では,3つの最先端VLMに対するジェイルブレイクの影響を,それぞれ異なるモデリング手法を用いて検討する。
論文 参考訳(メタデータ) (2024-05-07T15:29:48Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - LLMs as Visual Explainers: Advancing Image Classification with Evolving
Visual Descriptions [13.546494268784757]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を統合し,最適なクラス記述子を求めるフレームワークを提案する。
我々の学習自由アプローチは、反復的にクラス記述子を洗練するための進化的最適化戦略を備えたLLMベースのエージェントを開発する。
論文 参考訳(メタデータ) (2023-11-20T16:37:45Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。