論文の概要: PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension
- arxiv url: http://arxiv.org/abs/2412.11906v1
- Date: Mon, 16 Dec 2024 15:52:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:43.068614
- Title: PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension
- Title(参考訳): PunchBench:マルチモーダルパンチライン理解におけるMLLMのベンチマーク
- Authors: Kun Ouyang, Yuanxin Liu, Shicheng Li, Yi Liu, Hao Zhou, Fandong Meng, Jie Zhou, Xu Sun,
- Abstract要約: マルチモーダルなtextbfPunchline comprehension textbfPunchBenchmark を導入する。
評価精度を高めるために、原文のキャプションを変更して、同義語と無称のキャプションを生成する。
そこで我々は,パンチライン理解における最先端のMLLMと人間の間に大きなギャップがあることを明らかにする。
- 参考スコア(独自算出の注目度): 69.73137587705646
- License:
- Abstract: Multimodal punchlines, which involve humor or sarcasm conveyed in image-caption pairs, are a popular way of communication on online multimedia platforms. With the rapid development of multimodal large language models (MLLMs), it is essential to assess their ability to effectively comprehend these punchlines. However, existing benchmarks on punchline comprehension suffer from three major limitations: 1) language shortcuts that allow models to solely rely on text, 2) lack of question diversity, and 3) narrow focus on a specific domain of multimodal content (e.g., cartoon). To address these limitations, we introduce a multimodal \textbf{Punch}line comprehension \textbf{Bench}mark, named \textbf{PunchBench}, which is tailored for accurate and comprehensive evaluation of punchline comprehension. To enhance the evaluation accuracy, we generate synonymous and antonymous captions by modifying original captions, which mitigates the impact of shortcuts in the captions. To provide a comprehensive evaluation, PunchBench incorporates diverse question formats and image-captions from various domains. On this basis, we conduct extensive evaluations and reveal a significant gap between state-of-the-art MLLMs and humans in punchline comprehension. To improve punchline comprehension, we propose Simple-to-Complex Chain-of-Question (SC-CoQ) strategy, enabling the models to incrementally address complicated questions by first mastering simple ones. SC-CoQ effectively enhances the performance of various MLLMs on PunchBench, surpassing in-context learning and chain-of-thought.
- Abstract(参考訳): マルチモーダル・パンチライン(マルチモーダル・パンチライン)は、オンラインマルチメディアプラットフォーム上で人気のある通信方法である。
マルチモーダル大規模言語モデル (MLLM) の急速な発展に伴い,これらのパンチラインを効果的に理解する能力を評価することが不可欠である。
しかし、パンチライン理解に関する既存のベンチマークは、3つの大きな制限に悩まされている。
1 モデルがテキストのみに依存することができる言語ショートカット。
2【質問の多様性の欠如】
3)マルチモーダルコンテンツ(例えば、漫画)の特定の領域に焦点を絞る。
これらの制約に対処するため,パンチライン理解の正確かつ包括的な評価に適したマルチモーダルな \textbf{Punch}line comprehension \textbf{Bench}mark を導入している。
評価精度を高めるために、原文のキャプションを変更することで、キャプションにおけるショートカットの影響を軽減するシノニムキャプションとアントニマスキャプションを生成する。
総合的な評価のために、PunchBenchは様々なドメインからの多様な質問フォーマットと画像キャプチャを取り入れている。
そこで我々は,パンチライン理解における最先端のMLLMと人間の間に大きなギャップがあることを明らかにする。
パンチライン理解を改善するために,単純な質問をまずマスターすることで,複雑な問題に段階的に対処できる,単純な質問の連鎖(SC-CoQ)戦略を提案する。
SC-CoQ は PunchBench 上での様々なMLLM の性能を効果的に向上させ,コンテキスト内学習やチェーン・オブ・ソートを超越した。
関連論文リスト
- Order Matters: Exploring Order Sensitivity in Multimodal Large Language Models [15.622219099903067]
マルチモーダル入力の順序を変えることで、モデルの性能が高度な性能とランダムな推測の間で変動することを発見した。
この現象は、単一のモダリティ(テキストのみまたは画像のみ)と混合モダリティ(画像-テキスト-ペア)の両方の文脈に存在する。
MLLM評価における順序バイアスに対処する新しい指標である位置不変精度(PIA)を提案する。
論文 参考訳(メタデータ) (2024-10-22T13:05:11Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論するモデルの能力を厳格に評価するために設計された新しいベンチマークである。
本研究の主目的は,ほとんどのOLMが3モーダル文脈における指示追従能力と推論能力に限界があることである。
このギャップに対処するため、84.5KのトレーニングサンプルであるOmniInstructの命令チューニングデータセットをキュレートし、OLMをマルチモーダルなコンテキストに適応させる。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
視覚エンコーダとマルチモーダル大言語モデル(MLLM)の整合性に着目した既存手法
そこで本研究では,テキストガイダンスを用いて視覚的トークンアライメントを言語レベルで促進する新しい手法であるParrotを紹介する。
本手法は,多言語MMBenchおよびMMMB上での最先端性能を示すだけでなく,多モーダルタスクにも優れる。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - OTSeg: Multi-prompt Sinkhorn Attention for Zero-Shot Semantic Segmentation [57.84148140637513]
Multi-Prompts Sinkhorn Attention (MPSA)は、マルチモーダル設定でTransformerフレームワーク内のクロスアテンションメカニズムを効果的に置き換える。
OTSegは、Zero-Shot Semantic (ZS3)タスクで大幅に向上した、最先端のSOTA(State-of-the-art)パフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-21T07:15:37Z) - Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding [7.329728566839757]
ブロック認識型prompt Fusion (MoPE-BAF) を用いたMixture-of-prompt-Expertsを提案する。
MoPE-BAFは、統合視覚言語モデル(VLM)に基づく、新しいマルチモーダルソフトプロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-03-17T19:12:26Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - MoCA: Incorporating Multi-stage Domain Pretraining and Cross-guided
Multimodal Attention for Textbook Question Answering [7.367945534481411]
テキスト質問応答タスクに対して,多段階事前学習とマルチモーダルクロスアテンションを取り入れたMoCAという新しいモデルを提案する。
実験結果から,本モデルの精度が2.21%, 2.43%向上し, 検証精度が2.21%, テストスプリットが2.43%向上した。
論文 参考訳(メタデータ) (2021-12-06T07:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。