論文の概要: VKnowU: Evaluating Visual Knowledge Understanding in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2511.20272v1
- Date: Tue, 25 Nov 2025 12:58:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.463414
- Title: VKnowU: Evaluating Visual Knowledge Understanding in Multimodal LLMs
- Title(参考訳): VKnowU:マルチモーダルLLMにおける視覚的知識理解の評価
- Authors: Tianxiang Jiang, Sheng Xia, Yicheng Xu, Linquan Wu, Xiangyu Zeng, Limin Wang, Yu Qiao, Yi Wang,
- Abstract要約: 視覚知識は知覚と推論の間に橋渡しを形成する。
23個のSOTA MLLMの評価は、主要なモデルがまだ人間のパフォーマンスに欠けていることを明らかにしている。
MLLMに視覚知識を明示的に組み込むベースラインモデルとして,新たなデータセットであるVKnowQAとVideoKnow+を導入する。
- 参考スコア(独自算出の注目度): 35.79620808899466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Multimodal Large Language Models (MLLMs) have become adept at recognizing objects, they often lack the intuitive, human-like understanding of the world's underlying physical and social principles. This high-level vision-grounded semantics, which we term visual knowledge, forms a bridge between perception and reasoning, yet remains an underexplored area in current MLLMs. To systematically evaluate this capability, we present VKnowU, a comprehensive benchmark featuring 1,680 questions in 1,249 videos, covering 8 core types of visual knowledge spanning both world-centric (e.g., intuitive physics) and human-centric (e.g., subjective intentions). Evaluation of 23 SOTA MLLMs reveals that leading models still fall short of human performance, with particularly notable gaps in the world-centric. To bridge this gap, we introduce a new dataset, VKnowQA, and VideoKnow+, a baseline model that explicitly incorporates visual knowledge into MLLMs. VideoKnow+ follows a structured See-Think-Answer paradigm and adopts reinforcement learning with visual knowledge reward, achieving a +3.7% improvement on VKnowU and consistent gains on MVBench, Video-MME, and MMVU. Our work highlights visual knowledge as a missing cornerstone for developing more generalizable MLLMs that can not only see but also truly understand our physical and social worlds.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)はオブジェクトの認識に長けているが、世界の基本的物理的・社会的原理に対する直感的・人間的な理解が欠如していることが多い。
視覚知識と呼ばれるこの高レベルの視覚的接地セマンティクスは、認識と推論の間の橋渡しを形成するが、現在のMLLMでは未探索領域である。
この能力を体系的に評価するために、1,249のビデオで1,680の質問を収録した総合的なベンチマークであるVKnowUを紹介し、世界中心(例えば直感的物理学)と人間中心(例えば主観的意図)にまたがる8種類の視覚的知識を網羅する。
23個のSOTA MLLMの評価は、主要なモデルが依然として人間のパフォーマンスに欠けており、特に世界中心のギャップが顕著であることを示している。
このギャップを埋めるために、新しいデータセットであるVKnowQAと、視覚知識をMLLMに明示的に組み込むベースラインモデルであるVideoKnow+を導入する。
VideoKnow+は構造化されたSee-Think-Answerパラダイムに従い、VKnowUで+3.7%向上し、MVBench、Video-MME、MVUで一貫した利益を得た。
私たちの研究は、視覚的な知識が、より一般化可能なMLLMを開発するための基盤として欠落していることを強調しています。
関連論文リスト
- Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency [29.28977802424541]
視覚的依存を明示するマルチモーダル数学的推論のためのベンチマークであるVCBENCHを紹介する。
VCBENCHには6つの認知領域に1,720の問題がある。
我々は、VCBENCH上で26の最先端LVLMを評価し、高い性能差を示し、トップモデルでさえ50%以上の精度を達成できなかった。
論文 参考訳(メタデータ) (2025-04-24T06:16:38Z) - Explore the Hallucination on Low-level Perception for MLLMs [83.12180878559295]
低レベルの視覚知覚と理解タスクにおけるMLLMの自己認識性を定義し,評価することを目的としている。
低レベルの視覚に対する人間の反応をシミュレートするベンチマーク設定であるQL-Benchを提案する。
いくつかのモデルでは、ロバストな低レベル視覚能力を示すが、その自己認識性は比較的未発達である。
論文 参考訳(メタデータ) (2024-09-15T14:38:29Z) - What is the Visual Cognition Gap between Humans and Multimodal LLMs? [63.81347276258992]
MLLM(Multimodal Large Language Models)の視覚認知能力を評価し,その性能を人間の視覚認知研究と比較した。
我々の比較実験では、MLLMと人間の知能のギャップが明らかになっている。
我々は,MaRs-VQAとQwen2-VCogベースラインモデルの公開が,人間の視覚認知能力を持つ次世代MLLMに向けて進展をもたらすと考えている。
論文 参考訳(メタデータ) (2024-06-14T22:02:21Z) - MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception [21.60103376506254]
MLLM(Multimodal Large Language Models)は視覚的知覚と理解において例外的な能力を示す。
これらのモデルも幻覚に悩まされ、AIシステムとしての信頼性が制限される。
本稿では,MLLMの認識における自己認識性を定義し,評価することを目的とする。
論文 参考訳(メタデータ) (2024-01-15T08:19:22Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z) - Large Knowledge Model: Perspectives and Challenges [37.42721596964844]
emphLarge Language Models (LLMs) は、広範囲なシーケンスベースの世界知識をニューラルネットワークに事前学習する。
本稿では,「知識」のレンズを用いた大規模モデルについて考察する。
人間の知識の複雑な性質を考えると、私たちはEmphLarge Knowledge Models(LKM)の作成を提唱する。
論文 参考訳(メタデータ) (2023-12-05T12:07:30Z) - A Comprehensive Evaluation of GPT-4V on Knowledge-Intensive Visual Question Answering [53.70661720114377]
マルチモーダル・大型モデル(MLM)は視覚的理解の分野を著しく進歩させ、視覚的質問応答(VQA)の領域で顕著な能力を提供している
しかし、真の課題は知識集約型VQAタスクの領域にある。
1) モデルが視覚的手がかりを理解し、一般的な知識にどのように結びつくかを評価するコモンセンス知識、2) 画像から特定の知識を推論し、提示する際のモデルのスキルをテストする微粒な世界知識。
論文 参考訳(メタデータ) (2023-11-13T18:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。