論文の概要: MapTab: Can MLLMs Master Constrained Route Planning?
- arxiv url: http://arxiv.org/abs/2602.18600v1
- Date: Fri, 20 Feb 2026 20:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.184918
- Title: MapTab: Can MLLMs Master Constrained Route Planning?
- Title(参考訳): MapTab: MLLMsマスターはルートプランニングを制限できるか?
- Authors: Ziqiao Shang, Lingyue Ge, Yang Chen, Shi-Yu Tian, Zhenyu Huang, Wenbo Fu, Yu-Feng Li, Lan-Zhe Guo,
- Abstract要約: 経路計画タスクを介してMLLMの制約推論を評価するためのマルチモーダル・ベンチマークであるMapTabを紹介する。
MapTabは合計で328のイメージ、196,800のルートプランニングクエリ、3,936のQAクエリで構成されている。
我々はMapTabがMLLMの体系的評価を前進させるために、挑戦的で現実的なテストベッドを提供すると考えている。
- 参考スコア(独自算出の注目度): 21.964645089546877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Systematic evaluation of Multimodal Large Language Models (MLLMs) is crucial for advancing Artificial General Intelligence (AGI). However, existing benchmarks remain insufficient for rigorously assessing their constrained reasoning capabilities. To bridge this gap, we introduce MapTab, a multimodal benchmark specifically designed to evaluate constrained reasoning in MLLMs via route planning tasks. MapTab requires MLLMs to perceive and ground visual cues from map images alongside route attributes (e.g., Time, Price) from structured tabular data. The benchmark encompasses two scenarios: Metromap, covering metro networks in 160 cities across 52 countries, and Travelmap, depicting 168 representative tourist attractions from 19 countries. In total, MapTab comprises 328 images, 196,800 route planning queries, and 3,936 QA queries, all incorporating 4 key constraints: Time, Price, Comfort, and Reliability. Extensive evaluations across 15 representative MLLMs reveal that current models face substantial challenges in constrained multimodal reasoning. Notably, under conditions of limited visual perception, multimodal collaboration often underperforms compared to unimodal approaches. We believe MapTab provides a challenging and realistic testbed to advance the systematic evaluation of MLLMs.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の体系的評価は,人工知能(AGI)の進歩に不可欠である。
しかし、既存のベンチマークは制約付き推論能力を厳格に評価するには不十分である。
このギャップを埋めるため,経路計画タスクを通じてMLLMの制約推論を評価するためのマルチモーダルベンチマークであるMapTabを導入する。
MapTabは、構造化された表データからルート属性(例えば、時間、価格)とともにマップイメージから視覚的手がかりを知覚し、接地するMLLMを必要とする。
このベンチマークには、2つのシナリオが含まれており、メトロマップは52カ国の160都市でメトロネットワークをカバーしており、トラベルマップは19カ国から168の代表的な観光地を描いている。
MapTabは合計で328のイメージ、196,800のルートプランニングクエリ、3,936のQAクエリで構成されている。
15の代表的なMLLMに対する広範囲な評価は、現在のモデルは制約付きマルチモーダル推論において重大な課題に直面していることを示している。
特に、視覚的知覚の限られた条件下では、マルチモーダル・コラボレーションは、非モーダル・アプローチに比べてパフォーマンスが劣ることが多い。
我々はMapTabがMLLMの体系的評価を前進させるために、挑戦的で現実的なテストベッドを提供すると考えている。
関連論文リスト
- MMTBENCH: A Unified Benchmark for Complex Multimodal Table Reasoning [40.95790862132066]
MMTBENCH (MMTBENCH) は、様々な実世界の情報源から描画される500の実世界のマルチモーダルテーブルからなるベンチマークである。
MMTBENCH の質問は、4つの質問タイプ (Explicit, Implicit, Answer Mention, Visual Based)、5つの推論タイプ (Mathematical, Extrema Identification, Fact Verification, Vision Based, etcs)、8つのテーブルタイプをカバーしている。
論文 参考訳(メタデータ) (2025-05-27T21:09:11Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。
このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。
我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文 参考訳(メタデータ) (2025-05-21T15:06:59Z) - MAPWise: Evaluating Vision-Language Models for Advanced Map Queries [47.15503716894445]
本研究では,視覚言語モデル(VLM)の有効性について検討した。
我々は3つの地理的地域(アメリカ合衆国、インド、中国)の地図からなる新しい地図に基づく質問回答ベンチマークを導入する。
このベンチマークには43種類の質問テンプレートが組み込まれており、相対空間関係の微妙な理解、複雑な地図の特徴、複雑な推論が必要である。
論文 参考訳(メタデータ) (2024-08-30T20:57:34Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI [71.53579367538725]
MMT-Benchは、大規模なマルチモーダルタスクにわたるLVLM(Large Vision-Language Models)を評価するために設計されたベンチマークである。
MMT-Benchは、様々なマルチモーダルシナリオから、巧妙にキュレートされたマルチチョイスの視覚的質問を31,325ドルで提供する。
論文 参考訳(メタデータ) (2024-04-24T17:37:05Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [111.51612340032052]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。