論文の概要: How Well Do Vision--Language Models Understand Cities? A Comparative Study on Spatial Reasoning from Street-View Images
- arxiv url: http://arxiv.org/abs/2508.21565v1
- Date: Fri, 29 Aug 2025 12:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:11.038348
- Title: How Well Do Vision--Language Models Understand Cities? A Comparative Study on Spatial Reasoning from Street-View Images
- Title(参考訳): 都市における視覚-言語モデルの効果 : ストリートビュー画像による空間的推論の比較
- Authors: Juneyoung Ro, Namwoo Kim, Yoonjin Yoon,
- Abstract要約: 都市のシーンは、オブジェクト、レイアウト、深さのキューに関するきめ細かい空間的推論を必要とする。
現在の視覚言語モデル(VLM)は、一般の場面で事前訓練されており、これらの能力を都市領域に伝達する能力は未探索のままである。
本研究では,VLMの新たな課題として都市空間推論を導入し,汎用モデルを専門分野に適用するための実践的経路として,合成データセットの構築を実証する。
- 参考スコア(独自算出の注目度): 3.836101499114879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effectively understanding urban scenes requires fine-grained spatial reasoning about objects, layouts, and depth cues. However, how well current vision-language models (VLMs), pretrained on general scenes, transfer these abilities to urban domain remains underexplored. To address this gap, we conduct a comparative study of three off-the-shelf VLMs-BLIP-2, InstructBLIP, and LLaVA-1.5-evaluating both zero-shot performance and the effects of fine-tuning with a synthetic VQA dataset specific to urban scenes. We construct such dataset from segmentation, depth, and object detection predictions of street-view images, pairing each question with LLM-generated Chain-of-Thought (CoT) answers for step-by-step reasoning supervision. Results show that while VLMs perform reasonably well in zero-shot settings, fine-tuning with our synthetic CoT-supervised dataset substantially boosts performance, especially for challenging question types such as negation and counterfactuals. This study introduces urban spatial reasoning as a new challenge for VLMs and demonstrates synthetic dataset construction as a practical path for adapting general-purpose models to specialized domains.
- Abstract(参考訳): 都市景観を効果的に理解するには、オブジェクト、レイアウト、奥行きといった詳細な空間的推論が必要である。
しかしながら、一般的な場面で事前訓練された現在の視覚言語モデル(VLM)が、これらの能力を都会領域に伝達する方法については、未調査のままである。
このギャップに対処するため,都市のシーンに特有な合成VQAデータセットを用いて,ゼロショット性能と微調整の効果の両方を評価するために,市販のVLMs-BLIP-2,InstructBLIP,LLaVA-1.5の3つの比較研究を行った。
街路ビュー画像のセグメンテーション,深度,オブジェクト検出の予測からこのようなデータセットを構築し,各質問をLLM生成のChain-of-Thought(CoT)回答とペアリングして,ステップバイステップの推論監視を行う。
その結果、VLMはゼロショット環境では適度に機能するが、我々の合成CoT教師付きデータセットによる微調整は、特に否定や反事実のような挑戦的な問題に対して、性能を大幅に向上させることがわかった。
本研究では,VLMの新たな課題として都市空間推論を導入し,汎用モデルを専門分野に適用するための実践的経路として,合成データセットの構築を実証する。
関連論文リスト
- Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [79.52833996220059]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes [0.9208007322096533]
本稿では,SAGAI:Streetscape Analysis with Generative Artificial Intelligenceを紹介する。
これは、オープンアクセスデータと視覚言語モデルを使用して、街路レベルの都市シーンを評価するためのモジュラーワークフローである。
タスク固有のトレーニングやプロプライエタリなソフトウェア依存関係なしで動作します。
論文 参考訳(メタデータ) (2025-04-23T09:08:06Z) - Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [10.792834356227118]
VLM(Vision-Language Models)は、オブジェクトの識別と記述が優れているが、空間的推論に苦慮している。
人間の視覚のデュアルパスウェイモデルに触発されて,強い物体認識能力にもかかわらず,VLMが空間的タスクに失敗する理由を考察した。
論文 参考訳(メタデータ) (2025-03-21T17:51:14Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。