論文の概要: WalkCLIP: Multimodal Learning for Urban Walkability Prediction
- arxiv url: http://arxiv.org/abs/2511.21947v1
- Date: Wed, 26 Nov 2025 22:15:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.314382
- Title: WalkCLIP: Multimodal Learning for Urban Walkability Prediction
- Title(参考訳): WalkCLIP:都市歩行予測のためのマルチモーダル学習
- Authors: Shilong Xiang, JangHyeon Lee, Min Namgung, Yao-Yi Chiang,
- Abstract要約: 都市歩行は公衆衛生、持続可能性、生活の質の基盤となっている。
近年の研究では、衛星画像、ストリートビュー画像、人口指標を用いて歩行可能性を推定している。
都市の歩行可能性を予測するためにこれらの相補的な視点を統合するフレームワークであるWalkCLIPを紹介する。
- 参考スコア(独自算出の注目度): 4.403122905236942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Urban walkability is a cornerstone of public health, sustainability, and quality of life. Traditional walkability assessments rely on surveys and field audits, which are costly and difficult to scale. Recent studies have used satellite imagery, street view imagery, or population indicators to estimate walkability, but these single-source approaches capture only one dimension of the walking environment. Satellite data describe the built environment from above, but overlook the pedestrian perspective. Street view imagery captures conditions at the ground level, but lacks broader spatial context. Population dynamics reveal patterns of human activity but not the visual form of the environment. We introduce WalkCLIP, a multimodal framework that integrates these complementary viewpoints to predict urban walkability. WalkCLIP learns walkability-aware vision-language representations from GPT-4o generated image captions, refines these representations with a spatial aggregation module that incorporates neighborhood context, and fuses the resulting features with representations from a population dynamics foundation model. Evaluated at 4,660 locations throughout Minneapolis-Saint Paul, WalkCLIP outperforms unimodal and multimodal baselines in both predictive accuracy and spatial alignment. These results show that the integration of visual and behavioral signals yields reliable predictions of the walking environment.
- Abstract(参考訳): 都市歩行は公衆衛生、持続可能性、生活の質の基盤となっている。
従来の歩行性評価は、費用がかかり、スケールが難しい調査やフィールド監査に依存している。
近年の研究では、衛星画像、ストリートビュー画像、人口指標を用いて歩行可能性を推定しているが、これらの単一ソースアプローチは歩行環境の1次元しか捉えていない。
衛星データは、上から構築された環境を記述しているが、歩行者の視点を見下ろしている。
ストリートビューの画像は地上の条件を捉えているが、より広い空間的コンテキストは欠如している。
人口動態は人間の活動のパターンを明らかにするが、環境の視覚的形態は示さない。
都会の歩行可能性を予測するために,これらの相補的な視点を統合するマルチモーダル・フレームワークであるWalkCLIPを紹介する。
WalkCLIPは、GPT-4oが生成した画像キャプションから歩行性を考慮した視覚言語表現を学習し、周辺環境を組み込んだ空間集約モジュールでこれらの表現を洗練し、人口動態基礎モデルからの表現と融合する。
ミネアポリス・サンパウロの4,660箇所で評価され、ウォークCLIPは予測精度と空間アライメントの両方で単調および多モードのベースラインを上回っている。
これらの結果から,視覚信号と行動信号の統合は歩行環境の信頼性を予測できることがわかった。
関連論文リスト
- Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes [0.9208007322096533]
本稿では,SAGAI:Streetscape Analysis with Generative Artificial Intelligenceを紹介する。
これは、オープンアクセスデータと視覚言語モデルを使用して、街路レベルの都市シーンを評価するためのモジュラーワークフローである。
タスク固有のトレーニングやプロプライエタリなソフトウェア依存関係なしで動作します。
論文 参考訳(メタデータ) (2025-04-23T09:08:06Z) - StreetviewLLM: Extracting Geographic Information Using a Chain-of-Thought Multimodal Large Language Model [12.789465279993864]
地理空間予測は災害管理、都市計画、公衆衛生など様々な分野において重要である。
提案するStreetViewLLMは,大規模言語モデルと連鎖推論とマルチモーダルデータソースを統合した新しいフレームワークである。
このモデルは、香港、東京、シンガポール、ロサンゼルス、ニューヨーク、ロンドン、パリを含む7つの世界都市に適用されている。
論文 参考訳(メタデータ) (2024-11-19T05:15:19Z) - Multimodal Contrastive Learning of Urban Space Representations from POI Data [2.695321027513952]
CaLLiPer (Contrastive Language-Location Pre-training) は連続的な都市空間をベクトル表現に埋め込む表現学習モデルである。
ロンドンにおける都市空間表現の学習に適用し,CaLLiPerの有効性を検証する。
論文 参考訳(メタデータ) (2024-11-09T16:24:07Z) - Towards Zero-Shot Annotation of the Built Environment with Vision-Language Models (Vision Paper) [8.071443524030302]
適切な都市交通アプリケーションは、構築された環境の高忠実度デジタル表現を必要とする。
衛星画像から多様な都市特徴を注釈付けするためのメカニズムとして視覚言語モデルを考える。
我々は、最先端のビジョン言語モデルとプロンプト戦略の変種を組み合わせた概念実証を実証する。
論文 参考訳(メタデータ) (2024-08-01T21:50:23Z) - MetaUrban: An Embodied AI Simulation Platform for Urban Micromobility [52.0930915607703]
最近のロボティクスとエンボディードAIの進歩により、公共の都市空間はもはや人間専用ではない。
公共の都市空間における短距離移動のためのAIによって実現されるマイクロモビリティは、将来の交通システムにおいて重要な要素である。
本稿では,AI駆動型都市マイクロモビリティ研究のための構成シミュレーションプラットフォームであるMetaUrbanを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:56:49Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - Urban2Vec: Incorporating Street View Imagery and POIs for Multi-Modal
Urban Neighborhood Embedding [8.396746290518102]
Urban2Vecは、ストリートビューイメージと関心のポイントデータの両方を組み込んだ、教師なしマルチモーダルフレームワークである。
我々は,Urban2Vecがベースラインモデルよりも優れた性能を実現し,下流予測タスクにおける完全教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2020-01-29T21:30:53Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。