論文の概要: WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.02537v1
- Date: Wed, 28 Jan 2026 11:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.913463
- Title: WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models
- Title(参考訳): WorldVQA:マルチモーダル大規模言語モデルにおける原子世界の知識の測定
- Authors: Runjie Zhou, Youbo Shao, Haoyu Lu, Bowei Xing, Tongtong Bai, Yujie Chen, Jie Zhao, Lin Sui, Haotian Yao, Zijia Zhao, Hao Yang, Haoning Wu, Zaida Zhou, Jinguo Zhu, Zhiqi Huang, Yiping Bao, Yangyang Liu, Y. Charles, Xinyu Zhou,
- Abstract要約: マルチモーダル大言語モデル(MLLM)の原子的視覚世界知識を評価するためのベンチマークであるWorldVQAを紹介する。
このベンチマークは、階層化された分類における視覚的実体の接地と命名のアトミックな能力を評価する。
- 参考スコア(独自算出の注目度): 38.65572949409987
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce WorldVQA, a benchmark designed to evaluate the atomic visual world knowledge of Multimodal Large Language Models (MLLMs). Unlike current evaluations, which often conflate visual knowledge retrieval with reasoning, WorldVQA decouples these capabilities to strictly measure "what the model memorizes." The benchmark assesses the atomic capability of grounding and naming visual entities across a stratified taxonomy, spanning from common head-class objects to long-tail rarities. We expect WorldVQA to serve as a rigorous test for visual factuality, thereby establishing a standard for assessing the encyclopedic breadth and hallucination rates of current and next-generation frontier models.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の原子視覚世界知識を評価するためのベンチマークであるWorldVQAを紹介する。
現在の評価とは異なり、WorldVQAは「モデルが記憶しているもの」を厳密に測定するためにこれらの能力を分離している。
このベンチマークは、一般的な頭級のオブジェクトから長い尾の希少なものまで、階層化された分類における視覚的実体の接地と命名のアトミックな能力を評価する。
我々は、WorldVQAが視覚的事実性の厳密なテストとして機能し、現在のフロンティアモデルの百科事典の広さと幻覚率を評価するための標準を確立することを期待する。
関連論文リスト
- Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文 参考訳(メタデータ) (2025-06-27T03:24:29Z) - GePBench: Evaluating Fundamental Geometric Perception for Multimodal Large Language Models [34.647839550142834]
本稿では,MLLMの幾何学的知覚能力を評価するための新しいベンチマークであるGePBenchを紹介する。
評価の結果,現在最先端のMLLMは幾何学的知覚タスクに重大な欠陥があることが明らかとなった。
GePBenchデータを用いてトレーニングしたモデルは、幅広いベンチマークタスクにおいて大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-12-30T16:01:43Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - WorldGPT: Empowering LLM as Multimodal World Model [51.243464216500975]
MLLM(Multimodal Large Language Model)に基づく汎用世界モデルWorldGPTを紹介する。
WorldGPTは、さまざまなドメインにまたがる数百万のビデオを分析して、世界ダイナミクスの理解を得る。
マルチモーダル状態遷移予測ベンチマークWorldNetの評価を行う。
論文 参考訳(メタデータ) (2024-04-28T14:42:02Z) - GRASP: A novel benchmark for evaluating language GRounding And Situated Physics understanding in multimodal language models [4.354672867211922]
本稿では,ビデオベースマルチモーダル大言語モデル(LLM)の言語基盤と物理的理解能力を評価するための新しいベンチマークGRASPを提案する。
我々は、最先端のマルチモーダルLCMの評価にそれを用いている。
評価の結果,これらのモデルの言語基盤化や直感的な物理能力に重大な欠陥があることが判明した。
論文 参考訳(メタデータ) (2023-11-15T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。