論文の概要: Towards General Urban Monitoring with Vision-Language Models: A Review, Evaluation, and a Research Agenda
- arxiv url: http://arxiv.org/abs/2510.12400v1
- Date: Tue, 14 Oct 2025 11:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.294071
- Title: Towards General Urban Monitoring with Vision-Language Models: A Review, Evaluation, and a Research Agenda
- Title(参考訳): ビジョンランゲージモデルによる一般都市モニタリングに向けて:レビュー,評価,研究アジェンダ
- Authors: André Torneiro, Diogo Monteiro, Paulo Novais, Pedro Rangel Henriques, Nuno F. Rodrigues,
- Abstract要約: 視覚言語モデル(Vision-Language Models)は、自然言語の推論と視覚的理解を統合したモデルである。
都市インフラの状況について、機械は市民のように「見る」ことができるのか?
- 参考スコア(独自算出の注目度): 0.4893345190925178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Urban monitoring of public infrastructure (such as waste bins, road signs, vegetation, sidewalks, and construction sites) poses significant challenges due to the diversity of objects, environments, and contextual conditions involved. Current state-of-the-art approaches typically rely on a combination of IoT sensors and manual inspections, which are costly, difficult to scale, and often misaligned with citizens' perception formed through direct visual observation. This raises a critical question: Can machines now "see" like citizens and infer informed opinions about the condition of urban infrastructure? Vision-Language Models (VLMs), which integrate visual understanding with natural language reasoning, have recently demonstrated impressive capabilities in processing complex visual information, turning them into a promising technology to address this challenge. This systematic review investigates the role of VLMs in urban monitoring, with particular emphasis on zero-shot applications. Following the PRISMA methodology, we analyzed 32 peer-reviewed studies published between 2021 and 2025 to address four core research questions: (1) What urban monitoring tasks have been effectively addressed using VLMs? (2) Which VLM architectures and frameworks are most commonly used and demonstrate superior performance? (3) What datasets and resources support this emerging field? (4) How are VLM-based applications evaluated, and what performance levels have been reported?
- Abstract(参考訳): 公共インフラの都市モニタリング(ごみ箱、道路標識、植生、歩道、建設現場など)は、対象物、環境、環境条件の多様性のために大きな課題を生んでいる。
現在の最先端のアプローチは、一般的にIoTセンサーと手動検査の組み合わせに依存している。
今や、機械は市民のように「見る」ことができ、都市インフラの状態についての情報的な意見を推測できるのだろうか?
VLM(Vision-Language Models)は、視覚的な理解と自然言語の推論を統合することで、複雑な視覚情報を処理し、この課題に対処するための有望な技術になることを示す。
本稿では,都市モニタリングにおけるVLMの役割について,特にゼロショットの応用を中心に検討する。
PRISMAの手法に従って,2021年から2025年の間に公表された32のピアレビュー研究を分析し,(1)VLMを用いて都市モニタリングタスクを効果的に処理したか,という4つの中核研究課題に対処した。
2) VLMアーキテクチャとフレームワークが最も一般的に使われ、優れたパフォーマンスを示すものは何ですか?
(3)この新興分野をサポートするデータセットとリソースは何か。
(4) VLMベースのアプリケーションはどのように評価され、どの性能レベルが報告されているか。
関連論文リスト
- Point-It-Out: Benchmarking Embodied Reasoning for Vision Language Models in Multi-Stage Visual Grounding [39.64540328712615]
VLM(Vision-Language Models)は、様々なタスクにまたがる優れた世界的知識を実証した。
既存のベンチマークでは、画像アノテーションに基づいた複数選択質問を通じて、VLMの具体的推論能力を評価している。
我々は,VLMの具体的推論能力を正確な視覚的接地により体系的に評価する新しいベンチマークであるPoint-It-Outベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-09-30T05:05:54Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - How Well Do Vision--Language Models Understand Cities? A Comparative Study on Spatial Reasoning from Street-View Images [3.836101499114879]
都市のシーンは、オブジェクト、レイアウト、深さのキューに関するきめ細かい空間的推論を必要とする。
現在の視覚言語モデル(VLM)は、一般の場面で事前訓練されており、これらの能力を都市領域に伝達する能力は未探索のままである。
本研究では,VLMの新たな課題として都市空間推論を導入し,汎用モデルを専門分野に適用するための実践的経路として,合成データセットの構築を実証する。
論文 参考訳(メタデータ) (2025-08-29T12:21:57Z) - Imagine, Verify, Execute: Memory-guided Agentic Exploration with Vision-Language Models [81.08295968057453]
本稿では,人間の好奇心に触発されたエージェント探索フレームワークIVEを紹介する。
シミュレーションおよび実世界のテーブルトップ環境におけるIVEの評価を行った。
論文 参考訳(メタデータ) (2025-05-12T17:59:11Z) - iVISPAR -- An Interactive Visual-Spatial Reasoning Benchmark for VLMs [4.34964016971127]
iVISPARは、視覚言語モデル(VLM)がエージェントとして働く空間的推論能力を評価するために設計されたインタラクティブなベンチマークである。
このベンチマークは、ビジュアル3D、2D、テキストベースの入力モダリティをサポートし、VLMの計画と推論スキルの包括的な評価を可能にする。
その結果、VLMは3次元やテキストベースの設定に比べて2次元のタスクでは優れていたが、複雑な空間構成に苦慮し、常に人間のパフォーマンスに欠けていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-05T14:29:01Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Good at captioning, bad at counting: Benchmarking GPT-4V on Earth
observation data [7.797577465015058]
本研究では,地球観測データに有用なツールとして,VLM(Large Vision-Language Models)の進展を評価するためのベンチマークを提案する。
私たちのベンチマークには、都市モニタリング、災害救助、土地利用、保全といったシナリオが含まれています。
私たちのベンチマークはhttps://vleo.danielz.ch/とHugging Face at https://huggingface.co/collections/mit-ei/vleo-benchmark-datasets-65b789b0466555489cce0d70で公開されます。
論文 参考訳(メタデータ) (2024-01-31T04:57:12Z) - Deep Learning based Computer Vision Methods for Complex Traffic
Environments Perception: A Review [22.53793239186955]
本稿では、インテリジェントトランスポートシステム(ITS)と自律運転(AD)におけるコンピュータビジョンの応用に関する広範な文献レビューを行った。
データ課題は、トレーニングデータの収集とラベル付け、実際の状況への関連性、データセット固有のバイアス、処理に必要な大量のデータ、プライバシの懸念に関連している。
ディープラーニング(DL)モデルは通常、組み込みハードウェアのリアルタイム処理には複雑すぎるため、説明可能性や一般化性が欠如しており、現実世界の設定ではテストが難しい。
論文 参考訳(メタデータ) (2022-11-09T05:16:01Z) - An Exploration of Embodied Visual Exploration [97.21890864063872]
身体的コンピュータビジョンは、新しい非構造環境におけるロボットに対する知覚を考慮に入れている。
既存の視覚探索アルゴリズムの分類を提示し、それらをベンチマークするための標準フレームワークを作成する。
次に,提案フレームワークを用いた4つの最先端パラダイムの徹底的な実証的研究を行った。
論文 参考訳(メタデータ) (2020-01-07T17:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。