論文の概要: SpatialLLM: From Multi-modality Data to Urban Spatial Intelligence
- arxiv url: http://arxiv.org/abs/2505.12703v1
- Date: Mon, 19 May 2025 04:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.410437
- Title: SpatialLLM: From Multi-modality Data to Urban Spatial Intelligence
- Title(参考訳): 空間LLM:マルチモーダルデータから都市空間情報へ
- Authors: Jiabin Chen, Haiping Wang, Jinpeng Li, Yuan Liu, Zhen Dong, Bisheng Yang,
- Abstract要約: SpaceLLMのコアは、シーンベースの分析のために事前学習されたLCMを誘導するために、生の空間データから詳細で構造化されたシーン記述を構築することである。
広汎な実験により,事前学習したLLMは空間分布情報を正確に知覚できることが判明した。
都市分析におけるLLM性能に影響を及ぼす要因として,多分野知識,文脈長,推論能力が重要である。
- 参考スコア(独自算出の注目度): 13.810192130250744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose SpatialLLM, a novel approach advancing spatial intelligence tasks in complex urban scenes. Unlike previous methods requiring geographic analysis tools or domain expertise, SpatialLLM is a unified language model directly addressing various spatial intelligence tasks without any training, fine-tuning, or expert intervention. The core of SpatialLLM lies in constructing detailed and structured scene descriptions from raw spatial data to prompt pre-trained LLMs for scene-based analysis. Extensive experiments show that, with our designs, pretrained LLMs can accurately perceive spatial distribution information and enable zero-shot execution of advanced spatial intelligence tasks, including urban planning, ecological analysis, traffic management, etc. We argue that multi-field knowledge, context length, and reasoning ability are key factors influencing LLM performances in urban analysis. We hope that SpatialLLM will provide a novel viable perspective for urban intelligent analysis and management. The code and dataset are available at https://github.com/WHU-USI3DV/SpatialLLM.
- Abstract(参考訳): 本研究では,複雑な都市環境における空間知能タスクを推し進める新しいアプローチであるSpatialLLMを提案する。
地理的分析ツールやドメインの専門知識を必要とする従来の手法とは異なり、SpatialLLMは訓練、微調整、専門家の介入なしに様々な空間知能タスクに直接対処する統一言語モデルである。
SpaceLLMのコアは、シーンベースの分析のために事前学習されたLCMを誘導するために、生の空間データから詳細で構造化されたシーン記述を構築することである。
大規模実験により, 事前学習したLLMは空間分布情報を正確に把握し, 都市計画, 生態分析, 交通管理など, 高度な空間知能タスクのゼロショット実行を可能にすることがわかった。
都市分析におけるLLM性能に影響を及ぼす要因として,多分野知識,文脈長,推論能力が重要である。
我々は,SpatialLLMが都市知的分析・管理の新たな視点を提供することを期待している。
コードとデータセットはhttps://github.com/WHU-USI3DV/SpatialLLMで公開されている。
関連論文リスト
- UrbanMind: Urban Dynamics Prediction with Multifaceted Spatial-Temporal Large Language Models [19.915007218090754]
UrbanMind は多面的都市動態予測のための空間時空間 LLM フレームワークである。
UrbanMindのコアとなるMuffin-MAEは、特殊なマスキング戦略を備えた多面式フュージョンマスク自動エンコーダである。
複数の都市にまたがる実世界の都市データセットの実験は、UrbanMindが一貫して最先端のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-16T19:38:06Z) - OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence [51.0456395687016]
マルチモーダル大言語モデル(LLM)が人工知能の新しいフロンティアをオープンした。
地理空間応用に適したMLLM(OmniGeo)を提案する。
自然言語理解の長所と空間的推論の長所を組み合わせることで,GeoAIシステムの指示追従能力と精度を高めることができる。
論文 参考訳(メタデータ) (2025-03-20T16:45:48Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models [56.537253374781876]
LMM(Large Multimodal Models)は、様々なビジョンや言語タスクにおいて、強力なパフォーマンスを実現している。
しかし、それらの空間的推論能力は未解明である。
我々は,LMMの空間的理解と推論能力を包括的に研究するために,新しいVQAデータセットであるSpatial-MMを構築した。
論文 参考訳(メタデータ) (2024-11-09T03:07:33Z) - Aerial Vision-and-Language Navigation via Semantic-Topo-Metric Representation Guided LLM Reasoning [48.33405770713208]
本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして導入する,航空VLNタスクのエンドツーエンドフレームワークを提案する。
我々は, LLMの空間的推論能力を高めるために, セマンティック・トポ・メトリック表現(STMR)を開発した。
実環境およびシミュレーション環境で行った実験は,本手法の有効性とロバスト性を実証した。
論文 参考訳(メタデータ) (2024-10-11T03:54:48Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Are You Being Tracked? Discover the Power of Zero-Shot Trajectory
Tracing with LLMs! [3.844253028598048]
LLMTrackは、ゼロショット軌道認識にLLMをどのように活用できるかを示すモデルである。
本研究では,屋内シナリオと屋外シナリオを特徴とする異なる軌跡を用いて,現実のデータセットを用いてモデルを評価した。
論文 参考訳(メタデータ) (2024-03-10T12:50:35Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Multi-task deep learning for large-scale building detail extraction from
high-resolution satellite imagery [13.544826927121992]
MT-BR(Multi-task Building Refiner)は、衛星画像から構築の詳細を同時抽出するための適応型ニューラルネットワークである。
大規模アプリケーションでは,限定的だが代表的画像サンプルを戦略的に選択する新しい空間サンプリング方式を考案する。
MT-BRは、様々なメトリクスをまたいだ詳細の構築において、他の最先端の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2023-10-29T04:43:30Z) - Chatmap : Large Language Model Interaction with Cartographic Data [0.0]
OpenStreetMap(OSM)は、都市部と農村部の詳細な地理データを提供する、最も野心的なオープンソースグローバルイニシアチブである。
本研究では,比較的小規模(1Bパラメータ)の大規模言語モデル(LLM)を,より有能な教師モデルによってキュレートされた比較的小さな人工データセットを用いて微調整するプロセスの概念と詳細を実証する。
この研究は、このような生成的人工知能(AI)適応のための最初のガイドラインを提供し、この文脈で有用な新興能力の早期の兆候を示すことを目的としている。
論文 参考訳(メタデータ) (2023-09-28T15:32:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。