論文の概要: Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2510.11852v1
- Date: Mon, 13 Oct 2025 19:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 21:19:14.953926
- Title: Evaluating Open-Source Vision-Language Models for Multimodal Sarcasm Detection
- Title(参考訳): マルチモーダルサーカスム検出のためのオープンソースビジョンランゲージモデルの評価
- Authors: Saroj Basnet, Shafkat Farabi, Tharindu Ranasinghe, Diptesh Kanoji, Marcos Zampieri,
- Abstract要約: マルチモーダル・サルカズムを検出する能力に基づいて、7つの最先端の視覚言語モデル(VLM)を評価した。
また、サーカシックインスタンスの説明を生成する際のモデルの能力についても評価する。
- 参考スコア(独自算出の注目度): 18.11319620244252
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in open-source vision-language models (VLMs) offer new opportunities for understanding complex and subjective multimodal phenomena such as sarcasm. In this work, we evaluate seven state-of-the-art VLMs - BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, and Qwen-VL - on their ability to detect multimodal sarcasm using zero-, one-, and few-shot prompting. Furthermore, we evaluate the models' capabilities in generating explanations to sarcastic instances. We evaluate the capabilities of VLMs on three benchmark sarcasm datasets (Muse, MMSD2.0, and SarcNet). Our primary objectives are twofold: (1) to quantify each model's performance in detecting sarcastic image-caption pairs, and (2) to assess their ability to generate human-quality explanations that highlight the visual-textual incongruities driving sarcasm. Our results indicate that, while current models achieve moderate success in binary sarcasm detection, they are still not able to generate high-quality explanations without task-specific finetuning.
- Abstract(参考訳): オープンソースの視覚言語モデル(VLM)の最近の進歩は、サルカズムのような複雑で主観的なマルチモーダル現象を理解する新たな機会を提供する。
本研究では,ゼロ・ワン・ショットプロンプトを用いてマルチモーダル・サルカズムを検出する能力に基づいて,最先端のVLM(BLIP2, InstructBLIP, OpenFlamingo, LLaVA, PaliGemma, Gemma3, Qwen-VL)を7つ評価する。
さらに、サーカシックインスタンスの説明を生成する際のモデルの能力を評価する。
我々は,3つのベンチマーク皮肉データセット(Muse,MMSD2.0,SarcNet)上でのVLMの性能を評価する。
主な目的は,(1)皮肉なイメージ・キャプション・ペアの検出における各モデルの性能の定量化,(2)視覚・テクスチャの不整合を強調させる人間の品質説明を生成する能力の評価である。
以上の結果から,現在のモデルでは二分節検出が適度に成功しているが,タスク固有の微調整なしでは,高品質な説明を生成できないことが示唆された。
関連論文リスト
- Evaluating Multimodal Large Language Models on Spoken Sarcasm Understanding [19.632399543819382]
サーカスムの検出は、自然言語理解において依然として課題である。
我々は,大言語モデル(LLM)と多モーダルLLMを,英語と中国語の皮肉検出のために体系的に評価した。
論文 参考訳(メタデータ) (2025-09-18T22:44:27Z) - Commander-GPT: Fully Unleashing the Sarcasm Detection Capability of Multi-Modal Large Language Models [10.47267683821842]
サルカズム検出のための革新的なマルチモーダルコマンド-GPTフレームワークを提案する。
軍事戦略にインスパイアされ、まずサルカズム検出タスクを6つの異なるサブタスクに分解する。
中央の指揮官(意思決定者)は、それぞれの特定のサブタスクに対処するために最も適した大きな言語モデルを割り当てる。
F1スコアは19.3%向上した。
論文 参考訳(メタデータ) (2025-03-24T13:53:00Z) - Seeing Sarcasm Through Different Eyes: Analyzing Multimodal Sarcasm Perception in Large Vision-Language Models [25.416060651721764]
本稿では,既存のマルチモーダルサルカムデータセット上で,システマティックに設計されたプロンプトを用いた分析フレームワークを提案する。
モデル内およびモデル間の解釈的変動について検討し、信頼度、データセットラベルとの整合性、曖昧な「中立的」ケースの認識に着目した。
以上の結果より,LVLMと同一モデル内における顕著な相違が認められた。
論文 参考訳(メタデータ) (2025-03-15T14:10:25Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - MMSD2.0: Towards a Reliable Multi-modal Sarcasm Detection System [57.650338588086186]
本稿では,MMSDの欠点を修正する補正データセットMMSD2.0を紹介する。
マルチビューCLIPと呼ばれる,複数視点から多粒度キューを活用可能な新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-14T03:22:51Z) - How to Describe Images in a More Funny Way? Towards a Modular Approach
to Cross-Modal Sarcasm Generation [62.89586083449108]
本稿では,CMSG(Cross-modal sarcasm Generation)の新たな問題,すなわち,与えられた画像に対してサーカシックな記述を生成することについて検討する。
CMSGは、異なるモード間の相関だけでなく、サルカズムの特性をモデルが満たさなければならないため、困難である。
クロスモデルサルカズム生成のための抽出・生成・生成に基づくモジュール法(EGRM)を提案する。
論文 参考訳(メタデータ) (2022-11-20T14:38:24Z) - Multimodal Learning using Optimal Transport for Sarcasm and Humor
Detection [76.62550719834722]
会話ビデオと画像テキストのペアからマルチモーダルサルカズムとユーモアを検出する。
本稿では,モーダル内対応を利用したマルチモーダル学習システム MuLOT を提案する。
3つのベンチマークデータセット上で,マルチモーダルサルカズムとユーモア検出のためのアプローチを検証した。
論文 参考訳(メタデータ) (2021-10-21T07:51:56Z) - $R^3$: Reverse, Retrieve, and Rank for Sarcasm Generation with
Commonsense Knowledge [51.70688120849654]
非皮肉な入力文に基づくサルカズム生成のための教師なしアプローチを提案する。
本手法では,サルカズムの2つの主要な特徴をインスタンス化するために,検索・編集の枠組みを用いる。
論文 参考訳(メタデータ) (2020-04-28T02:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。