論文の概要: DynamicVL: Benchmarking Multimodal Large Language Models for Dynamic City Understanding
- arxiv url: http://arxiv.org/abs/2505.21076v1
- Date: Tue, 27 May 2025 12:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.625883
- Title: DynamicVL: Benchmarking Multimodal Large Language Models for Dynamic City Understanding
- Title(参考訳): DynamicVL: 動的都市理解のためのマルチモーダル大言語モデルのベンチマーク
- Authors: Weihao Xuan, Junjue Wang, Heli Qi, Zihang Chen, Zhuo Zheng, Yanfei Zhong, Junshi Xia, Naoto Yokoya,
- Abstract要約: DVL-Suiteはリモートセンシング画像による長期都市動態解析のための総合的なフレームワークである。
このスイートは、2005年から2023年までの42メガシティにまたがる15,063の高解像度(1.0m)のマルチテンポラリ画像で構成されています。
我々は17の最先端マルチモーダル言語モデルを評価し,その限界を長期的時間的理解と定量的分析で明らかにした。
- 参考スコア(独自算出の注目度): 18.309872321298492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models have demonstrated remarkable capabilities in visual understanding, but their application to long-term Earth observation analysis remains limited, primarily focusing on single-temporal or bi-temporal imagery. To address this gap, we introduce DVL-Suite, a comprehensive framework for analyzing long-term urban dynamics through remote sensing imagery. Our suite comprises 15,063 high-resolution (1.0m) multi-temporal images spanning 42 megacities in the U.S. from 2005 to 2023, organized into two components: DVL-Bench and DVL-Instruct. The DVL-Bench includes seven urban understanding tasks, from fundamental change detection (pixel-level) to quantitative analyses (regional-level) and comprehensive urban narratives (scene-level), capturing diverse urban dynamics including expansion/transformation patterns, disaster assessment, and environmental challenges. We evaluate 17 state-of-the-art multimodal large language models and reveal their limitations in long-term temporal understanding and quantitative analysis. These challenges motivate the creation of DVL-Instruct, a specialized instruction-tuning dataset designed to enhance models' capabilities in multi-temporal Earth observation. Building upon this dataset, we develop DVLChat, a baseline model capable of both image-level question-answering and pixel-level segmentation, facilitating a comprehensive understanding of city dynamics through language interactions.
- Abstract(参考訳): マルチモーダルな大言語モデルは視覚的理解において顕著な能力を示してきたが、長期的な地球観測解析への応用は依然として限られており、主に1時間または2時間画像に焦点を当てている。
このギャップに対処するため,遠隔センシング画像を用いた長期都市動態解析のための総合的なフレームワークであるDVL-Suiteを紹介した。
このスイートは、2005年から2023年までの42メガシティにまたがる15,063個の高解像度(1.0m)のマルチ時間画像で構成され、DVL-BenchとDVL-Instructの2つのコンポーネントで構成されている。
DVL-ベンチには、基本的な変化検出(ピクセルレベル)から定量的分析(地域レベル)、総合的な都市物語(シーンレベル)まで、7つの都市理解タスクが含まれている。
我々は17の最先端マルチモーダル言語モデルを評価し,その限界を長期的時間的理解と定量的分析で明らかにした。
これらの課題は、多時期地球観測におけるモデルの能力を高めるために設計された特別な命令チューニングデータセットであるDVL-Instructの作成を動機付けている。
このデータセットに基づいて,画像レベルの問合せと画素レベルのセグメンテーションの両方が可能なベースラインモデルDVLChatを開発し,言語相互作用による都市動態の包括的理解を容易にする。
関連論文リスト
- Dynamic-I2V: Exploring Image-to-Video Generation Models via Multimodal LLM [34.23005193437701]
拡散トランスフォーマー(DiT)アーキテクチャの視覚的条件とテキスト的条件を協調的に符号化するために,MLLM(Multimodal Large Language Models)を統合する革新的なフレームワークであるDynamic-I2Vを提案する。
画像とビデオの生成において、Dynamic-I2Vは最先端のパフォーマンスを実現しており、特に42.5%、7.9%、11.8%のダイナミックレンジ、制御性、品質が大幅に向上している。
論文 参考訳(メタデータ) (2025-05-26T12:29:34Z) - Towards Long-Horizon Vision-Language Navigation: Platform, Benchmark and Method [94.74003109176581]
Long-Horizon Vision-Language Navigation (LH-VLN)は、連続したサブタスク間の長期計画と意思決定の一貫性を強調する新しいVLNタスクである。
我々のプラットフォーム、ベンチマーク、メソッドは、ロバストなデータ生成パイプライン、包括的なモデル評価データセット、合理的なメトリクス、新しいVLNモデルでLH-VLNを供給する。
論文 参考訳(メタデータ) (2024-12-12T09:08:13Z) - VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks [48.67062958311173]
VL-GLUEは、自然言語理解のためのマルチタスクベンチマークである。
既存の大規模視覚言語モデルでは,このベンチマークは非常に難しい。
論文 参考訳(メタデータ) (2024-10-17T15:27:17Z) - In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。
コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。
提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-07-22T09:03:29Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - A survey on knowledge-enhanced multimodal learning [1.8591405259852054]
マルチモーダル学習は、単一の関節表現に様々なモダリティを組み合わせることを目的とした、関心の高まりの分野である。
特に視覚言語学(VL)の分野では、画像やテキストを含む様々なタスクを対象とする複数のモデルやテクニックが開発されている。
VLモデルはトランスフォーマーの概念を拡張し、両方のモダリティが互いに学習できるようにし、前例のない性能を達成した。
論文 参考訳(メタデータ) (2022-11-19T14:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。