論文の概要: StreetviewLLM: Extracting Geographic Information Using a Chain-of-Thought Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2411.14476v1
- Date: Tue, 19 Nov 2024 05:15:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:04:44.837181
- Title: StreetviewLLM: Extracting Geographic Information Using a Chain-of-Thought Multimodal Large Language Model
- Title(参考訳): StreetviewLLM:Chain-of-Thought Multimodal Large Language Modelを用いた地理情報の抽出
- Authors: Zongrong Li, Junhao Xu, Siqin Wang, Yifan Wu, Haiyang Li,
- Abstract要約: 地理空間予測は災害管理、都市計画、公衆衛生など様々な分野において重要である。
提案するStreetViewLLMは,大規模言語モデルと連鎖推論とマルチモーダルデータソースを統合した新しいフレームワークである。
このモデルは、香港、東京、シンガポール、ロサンゼルス、ニューヨーク、ロンドン、パリを含む7つの世界都市に適用されている。
- 参考スコア(独自算出の注目度): 12.789465279993864
- License:
- Abstract: Geospatial predictions are crucial for diverse fields such as disaster management, urban planning, and public health. Traditional machine learning methods often face limitations when handling unstructured or multi-modal data like street view imagery. To address these challenges, we propose StreetViewLLM, a novel framework that integrates a large language model with the chain-of-thought reasoning and multimodal data sources. By combining street view imagery with geographic coordinates and textual data, StreetViewLLM improves the precision and granularity of geospatial predictions. Using retrieval-augmented generation techniques, our approach enhances geographic information extraction, enabling a detailed analysis of urban environments. The model has been applied to seven global cities, including Hong Kong, Tokyo, Singapore, Los Angeles, New York, London, and Paris, demonstrating superior performance in predicting urban indicators, including population density, accessibility to healthcare, normalized difference vegetation index, building height, and impervious surface. The results show that StreetViewLLM consistently outperforms baseline models, offering improved predictive accuracy and deeper insights into the built environment. This research opens new opportunities for integrating the large language model into urban analytics, decision-making in urban planning, infrastructure management, and environmental monitoring.
- Abstract(参考訳): 地理空間予測は災害管理、都市計画、公衆衛生など様々な分野において重要である。
従来の機械学習手法は、ストリートビューイメージのような非構造化データやマルチモーダルデータを扱う場合、しばしば制限に直面している。
これらの課題に対処するため、我々はStreetViewLLMを提案する。StreetViewLLMは、大規模な言語モデルと、連鎖推論とマルチモーダルデータソースを統合する新しいフレームワークである。
ストリートビュー画像と地理座標とテキストデータを組み合わせることで、ストリートビューLLMは地理空間予測の精度と粒度を改善する。
提案手法は, 都市環境の詳細な分析を可能にするため, 地理情報抽出の精度を高めた。
このモデルは、香港、東京、シンガポール、ロサンゼルス、ニューヨーク、ロンドン、パリを含む7つの大都市に適用され、人口密度、医療へのアクセシビリティー、正規化された差分植生指数、建築高さ、不活地表面などの都市指標を予測する上で優れた性能を示している。
結果は、StreetViewLLMがベースラインモデルより一貫して優れており、予測精度が向上し、構築された環境に対する深い洞察を提供することを示している。
本研究は,大規模言語モデルを都市分析,都市計画における意思決定,インフラ管理,環境モニタリングに統合する新たな機会を開く。
関連論文リスト
- BuildingView: Constructing Urban Building Exteriors Databases with Street View Imagery and Multimodal Large Language Mode [1.0937094979510213]
ストリートビュー・イメージリーの進歩と、都市研究との統合によって、都市分析において、外部建設はますます重要になっている。
我々は,Googleストリートビューの高解像度視覚データをOpenStreetMapの空間情報とOverpass APIを介して統合する新しいアプローチであるBuildingViewを提案する。
本研究は,都市の建築外装データの精度を向上し,キーサステナビリティと設計指標を特定し,その抽出と分類のための枠組みを開発する。
論文 参考訳(メタデータ) (2024-09-29T03:00:16Z) - ControlCity: A Multimodal Diffusion Model Based Approach for Accurate Geospatial Data Generation and Urban Morphology Analysis [6.600555803960957]
本稿では,アクセス可能なVGIデータと完全なVGIデータを利用して,都市建物のフットプリントデータの生成を支援するマルチソース地理データ変換ソリューションを提案する。
次に,多モード拡散モデルに基づく地理データ変換手法であるControlCityを提案する。
世界の22都市での実験では、ControlCityが実際の都市建築パターンをシミュレートすることに成功している。
論文 参考訳(メタデータ) (2024-09-25T16:03:33Z) - Explainable Hierarchical Urban Representation Learning for Commuting Flow Prediction [1.5156879440024378]
通勤フロー予測は、現実の自治体の業務に欠かせない課題である。
我々は,異なるタイプのODフローを予測するために,意味のある領域埋め込みを生成するヘテロジニアスグラフベースモデルを開発した。
提案モデルでは,一様都市構造の観点から既存モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-27T03:30:01Z) - Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for
Cross-City Semantic Segmentation using High-Resolution Domain Adaptation
Networks [82.82866901799565]
我々は,都市間セマンティックセマンティックセグメンテーションタスクの研究を目的とした,新しいマルチモーダルリモートセンシングベンチマークデータセット(ハイパースペクトル,マルチスペクトル,SARを含む)を構築した。
単一都市に留まらず,多都市環境からAIモデルの一般化能力を促進するため,高解像度なドメイン適応ネットワークであるHighDANを提案する。
高DANは, 並列高分解能融合方式で, 都市景観の空間的トポロジカルな構造を良好に維持することができる。
論文 参考訳(メタデータ) (2023-09-26T23:55:39Z) - Unified Data Management and Comprehensive Performance Evaluation for
Urban Spatial-Temporal Prediction [Experiment, Analysis & Benchmark] [78.05103666987655]
この研究は、多様な都市空間時間データセットにアクセスし活用する際の課題に対処する。
都市空間・時空間のビッグデータ用に設計された統合ストレージフォーマットであるアトミックファイルを導入し,40種類の多様なデータセットでその有効性を検証する。
多様なモデルとデータセットを使用して広範な実験を行い、パフォーマンスリーダーボードを確立し、有望な研究方向性を特定する。
論文 参考訳(メタデータ) (2023-08-24T16:20:00Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - Spatio-Temporal Graph Few-Shot Learning with Cross-City Knowledge
Transfer [58.6106391721944]
クロスシティの知識は、データ不足の都市から学んだモデルを活用して、データ不足の都市の学習プロセスに役立てるという、その将来性を示している。
本稿では,ST-GFSLと呼ばれるS時間グラフのためのモデルに依存しない数ショット学習フレームワークを提案する。
本研究では,4つの交通速度予測ベンチマークの総合的な実験を行い,ST-GFSLの有効性を最先端手法と比較した。
論文 参考訳(メタデータ) (2022-05-27T12:46:52Z) - Effective Urban Region Representation Learning Using Heterogeneous Urban
Graph Attention Network (HUGAT) [0.0]
都市域の表現を学習するためのヘテロジニアスな都市グラフアテンションネットワーク(HUGAT)を提案する。
ニューヨークのデータに関する我々の実験では、HUGATは最先端のすべてのモデルより優れています。
論文 参考訳(メタデータ) (2022-02-18T04:59:20Z) - GANs for Urban Design [0.0]
本論文で検討されたトピックは、都市ブロックの設計にGenerative Adversarial Networksを応用することである。
この研究は、都市の形態学的特性に適応できる柔軟なモデルを提示する。
論文 参考訳(メタデータ) (2021-05-04T19:50:24Z) - Methodological Foundation of a Numerical Taxonomy of Urban Form [62.997667081978825]
本稿では, 生物系統学から得られた都市形態の数値分類法を提案する。
我々は同質の都市組織タイプを導出し、それら間の全体形態的類似性を決定することにより、都市形態の階層的分類を生成する。
フレーミングとプレゼンを行った後、プラハとアムステルダムの2都市でテストを行った。
論文 参考訳(メタデータ) (2021-04-30T12:47:52Z) - Predicting Livelihood Indicators from Community-Generated Street-Level
Imagery [70.5081240396352]
本稿では,クラウドソースによるストリートレベルの画像から重要な生活指標を予測するための,安価でスケーラブルで解釈可能なアプローチを提案する。
全国的に代表される世帯調査で収集した地上データと比較することにより,貧困,人口,健康の指標を正確に予測する上でのアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2020-06-15T18:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。