論文の概要: V-HUB: A Visual-Centric Humor Understanding Benchmark for Video LLMs
- arxiv url: http://arxiv.org/abs/2509.25773v1
- Date: Tue, 30 Sep 2025 04:33:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.4291
- Title: V-HUB: A Visual-Centric Humor Understanding Benchmark for Video LLMs
- Title(参考訳): V-HUB:ビデオLLMのための視覚中心の暗雲理解ベンチマーク
- Authors: Zhengpeng Shi, Hengli Li, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng,
- Abstract要約: v-HUBは視覚中心のビデオユーモア理解ベンチマークである。
各ビデオクリップは、キャプション、説明、説明を含むリッチなアノテーションとペアリングされる。
我々は,特殊なビデオLLMから音声処理が可能な汎用OmniLLMまで,MLLMの多様なセットを評価する。
- 参考スコア(独自算出の注目度): 72.59885036868499
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI models capable of comprehending humor hold real-world promise -- for example, enhancing engagement in human-machine interactions. To gauge and diagnose the capacity of multimodal large language models (MLLMs) for humor understanding, we introduce v-HUB, a novel visual-centric video humor understanding benchmark. v-HUB comprises a curated collection of minimally verbal short videos, sourced from classic silent films and online resources, and reflecting real-world scenarios where humor can be appreciated purely through visual cues. Each video clip is paired with rich annotations, including captions, descriptions, and explanations, supporting evaluation tasks like caption matching and humor explanation. To broaden its applicability, we further construct an open-ended video QA task, making it readily integrable into existing video understanding benchmarks. We evaluate a diverse set of MLLMs, from specialized Video-LLMs to versatile OmniLLMs that can process audio, covering both open-source and proprietary domains. The experimental results expose the difficulties MLLMs face in comprehending humor from visual cues alone. For example, all models exhibit a marked performance drop on caption matching when moving from text-based to video-based evaluation (without audio). Our findings also demonstrate that incorporating audio helps with video humor understanding, highlighting the informativeness of sound and the promise of integrating richer modalities for complex video understanding tasks.
- Abstract(参考訳): ユーモアを解釈できるAIモデルは、例えば人間と機械の相互作用におけるエンゲージメントを高めるなど、現実世界の約束を守ります。
ユーモア理解のためのマルチモーダル大言語モデル(MLLM)のキャパシティを計測し、診断するために、新しいビジュアル中心のビデオユーモア理解ベンチマークであるv-HUBを導入する。
v-HUBは、古典的なサイレント映画やオンラインリソースをソースとした、最小限の短いビデオのキュレートされたコレクションと、ユーモアが視覚的な手がかりによって純粋に評価される現実世界のシナリオを反映している。
各ビデオクリップには、キャプション、説明、説明を含む豊富なアノテーションが組み込まれ、キャプションマッチングやユーモアの説明などの評価タスクをサポートする。
適用性を高めるために、我々は、既存のビデオ理解ベンチマークに容易に統合できるように、よりオープンなビデオQAタスクを構築する。
我々は,特殊なビデオLLMから,オープンソースドメインとプロプライエタリドメインの両方をカバーするオーディオ処理が可能な汎用OmniLLMまで,MLLMの多様なセットを評価する。
実験の結果,視覚的手がかりのみでのユーモアの理解においてMLLMが直面する困難さが明らかになった。
例えば、すべてのモデルは、テキストベースからビデオベースの評価(音声なしで)に移行する際に、キャプションマッチングに顕著なパフォーマンス低下を示す。
また,音声を組み込むことは,映像のユーモアの理解に役立ち,音の情報性が向上し,複雑な映像理解タスクへのリッチなモダリティの統合が期待できることを示す。
関連論文リスト
- UFVideo: Towards Unified Fine-Grained Video Cooperative Understanding with Large Language Models [35.952441992916235]
UFVideoは,多粒度協調理解機能を備えた初のビデオLLMである。
我々は、単一のモデル内で、グローバル、ピクセル、時間スケールにわたる映像理解を柔軟に扱うために、統一された視覚言語案内アライメントを設計する。
GPT-4oに対するUFVideoの柔軟性とアドバンテージを示すために,UFVideo-Benchを3つの異なる協調作業で構成する。
論文 参考訳(メタデータ) (2025-12-12T07:17:42Z) - OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs [72.425061028374]
音声・視覚の相乗的理解を評価するためのベンチマークであるOmniVideoBenchを紹介する。
OmniVideoBenchは1000の高品質なQA(QA)ペアで構成され、それぞれにステップバイステップの推論トレースが付加されている。
我々はOmniVideoBenchをリリースし、より強力でより一般化可能な推論機能を持つMLLMの開発を促進する。
論文 参考訳(メタデータ) (2025-10-12T16:34:00Z) - MESH -- Understanding Videos Like Human: Measuring Hallucinations in Large Video Models [56.49314029765706]
本稿では,LVMの幻覚を系統的に評価するベンチマークであるMESHを紹介する。
MESHでは、ターゲットインスタンスとトラップインスタンスを組み込んだバイナリとマルチチョイスフォーマットを備えたQA-Answeringフレームワークを使用している。
我々は,MESHがビデオの幻覚を効果的かつ包括的に識別する手法であることを実証した。
論文 参考訳(メタデータ) (2025-09-10T12:34:07Z) - SiLVR: A Simple Language-based Video Reasoning Framework [71.77141065418238]
簡単な言語ベースのビデオ推論フレームワークであるSiLVRについて紹介する。
第一段階では、SiLVRは生動画を多感覚入力を用いて言語ベースの表現に変換する。
第2段階では、複雑なビデオ言語理解タスクを解決するために、言語記述を強力な理由付けLLMに入力する。
論文 参考訳(メタデータ) (2025-05-30T17:59:19Z) - CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。
同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。
この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - VidComposition: Can MLLMs Analyze Compositions in Compiled Videos? [51.15549963453873]
VidCompositionは、マルチモーダル大言語モデル(MLLM)の映像合成理解能力を評価するためのベンチマークである。
これには、カメラの動き、アングル、ショットサイズ、物語構造、キャラクターの動作、感情など、様々な構成的な側面をカバーしている。
33個のオープンソースおよびプロプライエタリなMLLMを総合的に評価した結果,人的・モデル的能力の差は顕著であった。
論文 参考訳(メタデータ) (2024-11-17T06:23:46Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。