論文の概要: UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios
- arxiv url: http://arxiv.org/abs/2408.17267v2
- Date: Mon, 23 Dec 2024 07:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:24.408305
- Title: UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios
- Title(参考訳): UrBench: 多視点都市シナリオにおける大規模マルチモーダルモデル評価のための総合ベンチマーク
- Authors: Baichuan Zhou, Haote Yang, Dairong Chen, Junyan Ye, Tianyi Bai, Jinhua Yu, Songyang Zhang, Dahua Lin, Conghui He, Weijia Li,
- Abstract要約: 複雑な多視点都市シナリオにおけるLMM評価のためのベンチマークであるUrBenchを提案する。
UrBenchには、リージョンレベルとロールレベルの両方で、厳密にキュレートされた11.6Kの質問が含まれている。
21のLMMに対する評価は、現在のLMMが都市環境においていくつかの面で苦戦していることを示している。
- 参考スコア(独自算出の注目度): 60.492736455572015
- License:
- Abstract: Recent evaluations of Large Multimodal Models (LMMs) have explored their capabilities in various domains, with only few benchmarks specifically focusing on urban environments. Moreover, existing urban benchmarks have been limited to evaluating LMMs with basic region-level urban tasks under singular views, leading to incomplete evaluations of LMMs' abilities in urban environments. To address these issues, we present UrBench, a comprehensive benchmark designed for evaluating LMMs in complex multi-view urban scenarios. UrBench contains 11.6K meticulously curated questions at both region-level and role-level that cover 4 task dimensions: Geo-Localization, Scene Reasoning, Scene Understanding, and Object Understanding, totaling 14 task types. In constructing UrBench, we utilize data from existing datasets and additionally collect data from 11 cities, creating new annotations using a cross-view detection-matching method. With these images and annotations, we then integrate LMM-based, rule-based, and human-based methods to construct large-scale high-quality questions. Our evaluations on 21 LMMs show that current LMMs struggle in the urban environments in several aspects. Even the best performing GPT-4o lags behind humans in most tasks, ranging from simple tasks such as counting to complex tasks such as orientation, localization and object attribute recognition, with an average performance gap of 17.4%. Our benchmark also reveals that LMMs exhibit inconsistent behaviors with different urban views, especially with respect to understanding cross-view relations. UrBench datasets and benchmark results will be publicly available at https://opendatalab.github.io/UrBench/.
- Abstract(参考訳): 近年のLMM(Large Multimodal Models)の評価では,都市環境に着目したベンチマークは少ないものの,様々な領域においてその能力について検討されている。
さらに, 都市環境におけるLMMの能力の評価は, 都市環境におけるLMMの能力について不完全な評価がなされている。
これらの問題に対処するために、複雑な多視点都市シナリオにおけるLMMを評価するために設計された総合的なベンチマークであるUrBenchを提案する。
UrBenchには、地理的ローカライゼーション、Scene Reasoning、Scene Understanding、Object Understandingの4つのタスクタイプをカバーする、リージョンレベルとロールレベルの両方で、11.6Kの厳密にキュレートされた質問が含まれている。
UrBenchの構築において、既存のデータセットからのデータを利用し、さらに11の都市からデータを収集し、クロスビュー検出マッチング法を用いた新しいアノテーションを作成する。
これらの画像とアノテーションにより、LMM、ルールベース、人間ベースの手法を統合して、大規模で高品質な質問を構築する。
21のLMMに対する評価は、現在のLMMが都市環境においていくつかの面で苦戦していることを示している。
最も優れたGPT-4oのラグでも、カウント、位置化、オブジェクト属性認識といった複雑なタスクから、平均的なパフォーマンスギャップ17.4%まで、多くのタスクで人間に遅れを取っている。
筆者らのベンチマークでは,LMMは都市間関係の理解に関して,異なる視点で不整合な行動を示すことも明らかにした。
UrBenchのデータセットとベンチマーク結果はhttps://opendatalab.github.io/UrBench/で公開される。
関連論文リスト
- CAMEL-Bench: A Comprehensive Arabic LMM Benchmark [10.20074702234283]
我々は,4億人以上の話者を対象とするアラビア語の総合的LMM評価ベンチマークを開発した。
提案するベンチマークは,マルチイメージ理解,複雑な視覚知覚,手書き文書理解,ビデオ理解,医用画像,植物病,リモートセンシングによる土地利用理解を含む8つのサブドメインと38のサブドメインから構成される。
論文 参考訳(メタデータ) (2024-10-24T17:59:38Z) - HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks [25.959032350818795]
HumanEval-Vは、コード生成による大規模言語モデルの視覚的理解と推論能力を評価するために設計されたベンチマークである。
HumanEval-Vには、CodeForcesやStack Overflowといったプラットフォームから派生した、108の慎重に構築されたエントリーレベルのPythonコーディングタスクが含まれている。
我々はHumanEval-Vを用いて19の最先端LMMを評価し、重要な課題を明らかにした。
論文 参考訳(メタデータ) (2024-10-16T09:04:57Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - CityBench: Evaluating the Capabilities of Large Language Model as World Model [10.22654338686634]
強力な一般化能力を持つ大規模言語モデル(LLM)は、多くの領域で広く使われている。
本稿では,対話型シミュレータによる評価プラットフォームであるCityBenchを提案する。
本研究では,都市域におけるLLMの都市規模世界モデルとしての能力を評価するために,認識理解と意思決定の2つのカテゴリに7つのタスクを設計する。
論文 参考訳(メタデータ) (2024-06-20T02:25:07Z) - Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。
本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。
自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文 参考訳(メタデータ) (2024-05-09T07:47:25Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。