MetaphorVU: Towards Metaphorical Video Understanding
Abstractの概要
本論文は、8種類の動画メタファーの体系的な分類法に基づき構築された、メタファー的な動画理解のためのベンチマーク「MetaphorVU-Bench」を提案する。このベンチマークには、多段階のフィルタリングとアノテーションを経て手動で検証された860本の現実世界の短尺動画が含まれており、どの視覚要素がどのような暗黙の意味を伝えるかという自由記述形式の解釈に焦点を当てて評価が行われる。さまざまなマルチモーダル大規模言語モデルを用いた実験の結果、現在のシステムはこのタスクにおいて依然として人間のパフォーマンスを大きく下回っていることが示された。著者らは、主なボトルネックは視覚要素から根底にある概念へのドメイン間マッピングの欠陥であると主張し、これに対処するため、推論時にメタファー知識グラフを用いた拡張を行うMetaphorBoostを提案している。
新規性
本研究は、テキストや画像、あるいは広告などの限定的な動画ドメインではなく、メタファー的な動画理解に特化した初の体系的なベンチマークであると考えられる。さらに、メタファー指向の知識グラフと、それを動画解釈時のドメイン間メタファーマッピングのサポートに用いる推論時フレームワークを導入している点に新規性がある。
成果
MetaphorVU-Benchにおいて、最も強力なベースラインモデルの平均スコアは約63.7〜63.8であったのに対し、サンプリングされた人間の上限値は83.4であり、大きな隔たりがあることが示された。エラー分析によると、失敗の大部分は基本的な認識エラーではなく、ドメイン間マッピングの欠落、表面的な処理、または不適切なマッピングに起因している。MetaphorBoostはテストされたバックボーン全体で一貫した改善をもたらし、Gemini-3-Proを63.8から66.1に、Qwen3-VL-8B-Thinkingを52.0から55.9に、Qwen2.5-VL-7B-Instructを33.8から37.9に向上させた。
論文の注目点
- MetaphorVU-Benchは、メタファー的な動画理解を8つの分類カテゴリーに整理し、厳密にフィルタリングとアノテーションが行われた860本の現実世界の動画で構成されている。
- 現在のマルチモーダル大規模言語モデル(MLLM)はメタファー的な動画解釈において人間のパフォーマンスに明らかに遅れをとっており、主な弱点は単なる視覚認識ではなくドメイン間マッピングにある。
- 推論時の拡張手法として提案されたMetaphorBoostは、54,687ノードと200,268エッジを持つメタファー知識グラフを使用し、複数のベースモデルにおいて一貫した性能向上を実現した。
参考リンク
- arXiv: https://arxiv.org/abs/2605.25461v1
- Fugu-MT: https://fugumt.com/fugumt/paper_check/2605.25461v1
- Hugging Face Papers: https://huggingface.co/papers/2605.25461
- GitHub: https://github.com/icip-cas/MetaphorVU
- Hugging Face: https://huggingface.co/datasets/lzq2021/MetaphorVU-Bench