Fugu-MT 論文翻訳(概要): Humor in Pixels: Benchmarking Large Multimodal Models Understanding of Online Comics

論文の概要: Humor in Pixels: Benchmarking Large Multimodal Models Understanding of Online Comics

arxiv url: http://arxiv.org/abs/2509.12248v1
Date: Fri, 12 Sep 2025 01:39:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-17 17:50:52.647009
Title: Humor in Pixels: Benchmarking Large Multimodal Models Understanding of Online Comics
Title（参考訳）: スマートフォンの噂:オンラインコミックの大規模マルチモーダルモデルのベンチマーク
Authors: Yuriel Ryan, Rui Yang Tan, Kenny Tsu Wei Choo, Roy Ka-Wei Lee,
Abstract要約: PixelHumorは、LMMがマルチモーダルなユーモアを解釈し、物語のシーケンスを認識する能力を評価するために設計された、2,800の注釈付きマルチパネルコミックのベンチマークデータセットである。トップモデルは、人間のパフォーマンスよりはるかに低い、パネルシークエンシングにおいて、わずか61%の精度しか達成していない。マルチモーダルな文脈と物語の推論を評価するための厳格なフレームワークを提供することによって、PixelHumorは、自然な社会的に意識されたインタラクションにより深く関与するLMMの開発を促進することを目指している。
参考スコア（独自算出の注目度）: 11.880921139024565
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding humor is a core aspect of social intelligence, yet it remains a significant challenge for Large Multimodal Models (LMMs). We introduce PixelHumor, a benchmark dataset of 2,800 annotated multi-panel comics designed to evaluate LMMs' ability to interpret multimodal humor and recognize narrative sequences. Experiments with state-of-the-art LMMs reveal substantial gaps: for instance, top models achieve only 61% accuracy in panel sequencing, far below human performance. This underscores critical limitations in current models' integration of visual and textual cues for coherent narrative and humor understanding. By providing a rigorous framework for evaluating multimodal contextual and narrative reasoning, PixelHumor aims to drive the development of LMMs that better engage in natural, socially aware interactions.
Abstract（参考訳）: ユーモアを理解することはソーシャルインテリジェンスの中核的な側面であるが、LMM(Large Multimodal Models)にとって重要な課題である。我々は,LMMのマルチモーダルなユーモアを解釈し,物語列を認識する能力を評価するために,2800の注釈付きマルチパネルコミックのベンチマークデータセットであるPixelHumorを紹介した。例えば、トップモデルは、人間のパフォーマンスよりはるかに低い、パネルシークエンシングにおいてわずか61%の精度しか達成していない。これは現在のモデルにおいて、コヒーレントな物語とユーモアの理解のための視覚的およびテキスト的手がかりの統合において、重要な限界を浮き彫りにしている。マルチモーダルな文脈と物語の推論を評価するための厳格なフレームワークを提供することによって、PixelHumorは、自然な社会的に意識されたインタラクションにより深く関与するLMMの開発を促進することを目指している。

関連論文リスト

PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension [69.73137587705646]
マルチモーダルなtextbfPunchline comprehension textbfPunchBenchmark を導入する。評価精度を高めるために、原文のキャプションを変更して、同義語と無称のキャプションを生成する。そこで我々は,パンチライン理解における最先端のMLLMと人間の間に大きなギャップがあることを明らかにする。
論文参考訳（メタデータ） (2024-12-16T15:52:59Z)
Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Discern Causal Links Across Modalities [19.923665989164387]
MuCRはMultimodal Causal Reasoningベンチマークであり、合成シアム画像とテキストペアを利用してMLLMに挑戦する。実験の結果,現在のMLLMはテキスト環境下での性能に比べ,マルチモーダル因果推論では不足していることがわかった。本稿では,視覚的手がかりをより強調するVcCoT戦略を提案し,その効果がマルチモーダル因果推論の強化に有効であることを確認した。
論文参考訳（メタデータ） (2024-08-15T12:04:32Z)
CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation [20.106207598099363]
我々は、生成したマルチモーダルコンテンツの一貫性、一貫性、アライメントを高めるために設計された高品質なデータセットであるCoMMを紹介する。 CoMMは、教育内容とビジュアルストーリーテリングに焦点を当て、多様なソースからの生データを活用する。さまざまな品質評価指標は、フィルタされたデータセットの高品質さを証明するように設計されている。
論文参考訳（メタデータ） (2024-06-15T01:27:58Z)
MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。 21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文参考訳（メタデータ） (2024-06-11T08:38:13Z)
Cracking the Code of Juxtaposition: Can AI Models Understand the Humorous Contradictions [16.23585043442914]
本論では, ユーモラスな矛盾を生じさせる2つのパネルから構成される, 矛盾した物語を持つ漫画に焦点を当てる。本稿では,これらの漫画の認識と解釈においてAIの能力を評価することを目的とした,さまざまな難易度タスクを含むYesButベンチマークを紹介する。以上の結果から,現状のモデルでさえ,この課題における人的パフォーマンスに遅れをとどめていることが明らかとなった。
論文参考訳（メタデータ） (2024-05-29T13:51:43Z)
InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model [108.42241250772643]
InternLM-XComposer2は自由形式のテキスト画像合成と理解に優れた視覚言語モデルである。このモデルは従来の視覚言語理解を超越し、多様な入力からインターリーブされたテキストイメージコンテンツを作成する。 InternLM2-7BをベースとしたInternLM-XComposer2の高画質長文マルチモーダルコンテンツにおける優位性を示す実験結果が得られた。
論文参考訳（メタデータ） (2024-01-29T18:59:02Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。