論文の概要: ViMU: Benchmarking Video Metaphorical Understanding
- arxiv url: http://arxiv.org/abs/2605.14607v1
- Date: Thu, 14 May 2026 09:23:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.749696
- Title: ViMU: Benchmarking Video Metaphorical Understanding
- Title(参考訳): ViMU:ビデオメタフォリカル理解のベンチマーク
- Authors: Qi Li, Xinchao Wang,
- Abstract要約: ViMUはビデオのフロンティアモデルのサブテキスト理解能力を評価するために設計されたベンチマークである。
暗黙的な意味を推測するために、ビデオ理解モデルがリテラル認識を超えることができるかどうかを評価する。
すべての質問はヒントのないように設計されており、答える前に重要な証拠がモデルに開示されることが保証されている。
- 参考スコア(独自算出の注目度): 58.432996881401415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Any new medium, once it emerges, is used for more than the transmission of overt content alone. The information it carries typically operates on two levels: one is the content directly presented, while the other is the subtext beneath it-the implicit ideas and intentions the creator seeks to convey through the medium. Likewise, since video technologies became widely adopted, video has served not only as a powerful tool for recording and communicating visual information, but also as a vehicle for emotions, attitudes, and social meanings that are often difficult to articulate explicitly. Thus, the true meaning of many videos does not reside solely in what is shown on screen; it is often embedded in context, style of expression, and the viewer's social experience. Some forms of such video subtext are humorous, while others carry irony, mockery, or criticism. These implicit meanings can also be interpreted very differently across cultural backgrounds and social groups. However, most existing video understanding models still focus primarily on literal visual comprehension, such as recognizing objects, actions, or temporal relations, and lack a systematic ability to understand the metaphorical, ironic, and social meanings embedded in videos. To bridge this gap, we introduce ViMU, the first benchmark designed to systematically evaluate the subtext understanding capabilities of frontier models in videos. ViMU assesses whether video understanding models can go beyond literal perception to infer implicit meaning while grounding their interpretations in multimodal evidence and answering both open-ended and multiple-choice questions. Importantly, all questions are designed to be hint-free, ensuring that no key evidence is disclosed to models before answering.
- Abstract(参考訳): 新しい媒体は一度現れると、オーバートコンテンツのみの送信よりも多く使用される。
1つは直接提示されるコンテンツであり、もう1つはその下にある暗黙の考えと、創造者が媒体を通して伝えようとする意図である。
同様に、ビデオ技術が広く採用されるようになってから、ビデオは視覚情報を記録・伝達するための強力なツールとしてだけでなく、感情、態度、社会的意味を明確化することがしばしば難しいものにもなっている。
したがって、多くのビデオの真の意味は、画面上に表示されるものだけに留まらず、しばしば文脈、表現様式、視聴者の社会的経験に埋め込まれる。
このようなビデオのサブテキストはユーモラスなものもあれば、皮肉やモック、批判的なものもある。
これらの暗黙の意味は、文化的背景や社会的グループによって非常に異なる解釈が可能である。
しかしながら、既存のビデオ理解モデルは、オブジェクト、行動、時間的関係を認識することや、ビデオに埋め込まれた比喩的、皮肉的、社会的意味を理解する体系的な能力の欠如など、リテラルな視覚的理解に焦点を当てている。
このギャップを埋めるために、ビデオにおけるフロンティアモデルのサブテキスト理解能力を体系的に評価する最初のベンチマークであるViMUを導入する。
ViMUは、ビデオ理解モデルがリテラル認識を超えて暗黙的な意味を推論できるかどうかを評価し、その解釈をマルチモーダルなエビデンスで根拠づけ、オープンエンドとマルチチョイスの両方の疑問に答える。
重要なことに、すべての質問はヒントのないように設計されており、答える前に重要な証拠がモデルに開示されることが保証されている。
関連論文リスト
- MESH -- Understanding Videos Like Human: Measuring Hallucinations in Large Video Models [56.49314029765706]
本稿では,LVMの幻覚を系統的に評価するベンチマークであるMESHを紹介する。
MESHでは、ターゲットインスタンスとトラップインスタンスを組み込んだバイナリとマルチチョイスフォーマットを備えたQA-Answeringフレームワークを使用している。
我々は,MESHがビデオの幻覚を効果的かつ包括的に識別する手法であることを実証した。
論文 参考訳(メタデータ) (2025-09-10T12:34:07Z) - All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark [70.92907745196153]
MAIAはビデオにおける視覚言語モデルの推論能力の詳細な調査のためのベンチマークである。
視覚入力の役割を強調することによって、言語と視覚関係を歪めようとする12の推論カテゴリを考察する。
MAIAは、そのデザイン、推論カテゴリ、使用するメトリクス、およびビデオの言語と文化に関して、他の利用可能なビデオベンチマークとは異なる。
論文 参考訳(メタデータ) (2025-02-24T09:25:51Z) - HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model [9.762722976833581]
現在のモデルは、ビデオと言語間のインスタンスレベルのアライメントに大きく依存している。
我々は、人間の知覚からインスピレーションを得て、エゴビデオ表現のための構成的アプローチを探求する。
論文 参考訳(メタデータ) (2024-06-01T05:41:12Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。