論文の概要: UrbanDiT: A Foundation Model for Open-World Urban Spatio-Temporal Learning
- arxiv url: http://arxiv.org/abs/2411.12164v1
- Date: Tue, 19 Nov 2024 02:01:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:37:50.823993
- Title: UrbanDiT: A Foundation Model for Open-World Urban Spatio-Temporal Learning
- Title(参考訳): UrbanDiT: オープンワールドな都市空間学習の基礎モデル
- Authors: Yuan Yuan, Chonghua Han, Jingtao Ding, Depeng Jin, Yong Li,
- Abstract要約: UrbanDiTTは、オープンワールドの都市時間学習の基礎モデルである。
多様な時間的データソースと、さまざまな都市やシナリオにまたがるタイプを統合している。
- 参考スコア(独自算出の注目度): 25.217842149162735
- License:
- Abstract: The urban environment is characterized by complex spatio-temporal dynamics arising from diverse human activities and interactions. Effectively modeling these dynamics is essential for understanding and optimizing urban systems In this work, we introduce UrbanDiT, a foundation model for open-world urban spatio-temporal learning that successfully scale up diffusion transformers in this field. UrbanDiT pioneers a unified model that integrates diverse spatio-temporal data sources and types while learning universal spatio-temporal patterns across different cities and scenarios. This allows the model to unify both multi-data and multi-task learning, and effectively support a wide range of spatio-temporal applications. Its key innovation lies in the elaborated prompt learning framework, which adaptively generates both data-driven and task-specific prompts, guiding the model to deliver superior performance across various urban applications. UrbanDiT offers three primary advantages: 1) It unifies diverse data types, such as grid-based and graph-based data, into a sequential format, allowing to capture spatio-temporal dynamics across diverse scenarios of different cities; 2) With masking strategies and task-specific prompts, it supports a wide range of tasks, including bi-directional spatio-temporal prediction, temporal interpolation, spatial extrapolation, and spatio-temporal imputation; and 3) It generalizes effectively to open-world scenarios, with its powerful zero-shot capabilities outperforming nearly all baselines with training data. These features allow UrbanDiT to achieves state-of-the-art performance in different domains such as transportation traffic, crowd flows, taxi demand, bike usage, and cellular traffic, across multiple cities and tasks. UrbanDiT sets up a new benchmark for foundation models in the urban spatio-temporal domain.
- Abstract(参考訳): 都市環境は、多様な人間の活動と相互作用から生じる複雑な時空間力学によって特徴づけられる。
都市システムの理解と最適化には,これらのダイナミクスを効果的にモデル化することが不可欠である。本稿では,この分野で拡散トランスフォーマーのスケールアップに成功している,オープンワールドな都市時空間学習の基礎モデルであるUrbanDiTを紹介する。
UrbanDiTは多様な時空間データソースとタイプを統合する統一モデルを開拓し、異なる都市やシナリオにわたる時空間の普遍的なパターンを学習する。
これにより、モデルはマルチデータ学習とマルチタスク学習の両方を統合することができ、幅広い時空間アプリケーションをサポートすることができる。
その重要なイノベーションは、データ駆動とタスク固有のプロンプトの両方を適応的に生成する、精巧なプロンプト学習フレームワークにある。
UrbanDiTには3つの利点がある。
1) グリッドベースのデータやグラフベースのデータといった多様なデータ型を逐次形式に統一し、異なる都市の様々なシナリオにおける時空間的ダイナミクスを捉える。
2)マスキング戦略とタスク固有のプロンプトにより、双方向時空間予測、時空間補間、空間補間、時空間補間、時空間補間など幅広いタスクをサポートする。
3)オープンワールドシナリオに効果的に一般化し、その強力なゼロショット機能はトレーニングデータでほぼすべてのベースラインを上回ります。
これらの機能により、UrbanDiTは、交通交通、群衆の流れ、タクシー需要、自転車の利用、携帯電話の交通など、さまざまな分野で、複数の都市やタスクで最先端のパフォーマンスを達成することができる。
UrbanDiTは、都市時空間領域における基礎モデルのための新しいベンチマークを設定している。
関連論文リスト
- Get Rid of Task Isolation: A Continuous Multi-task Spatio-Temporal Learning Framework [10.33844348594636]
我々は,都市の総合的知能を高めるために,連続マルチタスク時空間学習フレームワーク(CMuST)を提案することが不可欠であると主張する。
CMuSTは、都市時間学習を単一ドメインから協調マルチタスク学習に改革する。
マルチタスク時間学習のための3つの都市のベンチマークを作成し,CMuSTの優位性を実証的に実証した。
論文 参考訳(メタデータ) (2024-10-14T14:04:36Z) - A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - OpenCity: Open Spatio-Temporal Foundation Models for Traffic Prediction [29.514461050436932]
多様なデータ特性から、基盤となる見えない時間パターンを効果的にキャプチャし、正規化できる、OpenCityという新しい基盤モデルを導入する。
OpenCityはTransformerアーキテクチャとグラフニューラルネットワークを統合して、トラフィックデータの複雑な時間依存性をモデル化する。
実験の結果、OpenCityは例外的なゼロショット性能を示した。
論文 参考訳(メタデータ) (2024-08-16T15:20:36Z) - SMA-Hyper: Spatiotemporal Multi-View Fusion Hypergraph Learning for Traffic Accident Prediction [2.807532512532818]
現在のデータ駆動モデルは、しばしばデータ空間と多様な都市データソースの統合に苦しむ。
本稿では,交通事故予測のための動的学習フレームワークを提案する。
これは、高次のクロスリージョン学習を可能にするデュアル適応グラフ学習機構を組み込んでいる。
また、事故データと都市機能の複数のビューを融合させる事前注意機構も採用している。
論文 参考訳(メタデータ) (2024-07-24T21:10:34Z) - UrbanGPT: Spatio-Temporal Large Language Models [34.79169613947957]
本稿では,時空間エンコーダと命令調整パラダイムをシームレスに統合するUrbanPTを提案する。
我々は、様々な公開データセットに対して広範囲な実験を行い、異なる時間的予測タスクをカバーした。
結果は、慎重に設計されたアーキテクチャを持つUrbanPTが、最先端のベースラインを一貫して上回っていることを一貫して示しています。
論文 参考訳(メタデータ) (2024-02-25T12:37:29Z) - Spatio-Temporal Few-Shot Learning via Diffusive Neural Network Generation [25.916891462152044]
本稿では,都市知識伝達を伴う複雑な数ショット学習のための新しい生成事前学習フレームワークであるGPDを提案する。
我々は、プロンプトで導かれる調整されたニューラルネットワークを生成する生成拡散モデルを再放送する。
GPDは、トラフィック速度予測やクラウドフロー予測といったタスクのデータセットにおける最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-02-19T08:11:26Z) - Rethinking Urban Mobility Prediction: A Super-Multivariate Time Series
Forecasting Approach [71.67506068703314]
長期の都市移動予測は、都市施設やサービスの効果的管理において重要な役割を担っている。
伝統的に、都市移動データはビデオとして構成され、経度と緯度を基本的なピクセルとして扱う。
本研究では,都市におけるモビリティ予測の新たな視点について紹介する。
都市移動データを従来のビデオデータとして単純化するのではなく、複雑な時系列と見なす。
論文 参考訳(メタデータ) (2023-12-04T07:39:05Z) - Unified Data Management and Comprehensive Performance Evaluation for
Urban Spatial-Temporal Prediction [Experiment, Analysis & Benchmark] [78.05103666987655]
この研究は、多様な都市空間時間データセットにアクセスし活用する際の課題に対処する。
都市空間・時空間のビッグデータ用に設計された統合ストレージフォーマットであるアトミックファイルを導入し,40種類の多様なデータセットでその有効性を検証する。
多様なモデルとデータセットを使用して広範な実験を行い、パフォーマンスリーダーボードを確立し、有望な研究方向性を特定する。
論文 参考訳(メタデータ) (2023-08-24T16:20:00Z) - Multi-Temporal Relationship Inference in Urban Areas [75.86026742632528]
場所間の時間的関係を見つけることは、動的なオフライン広告やスマートな公共交通計画など、多くの都市アプリケーションに役立つ。
空間的に進化するグラフニューラルネットワーク(SEENet)を含むグラフ学習方式によるTrialの解を提案する。
SEConvは時間内アグリゲーションと時間間伝搬を実行し、位置メッセージパッシングの観点から、多面的に空間的に進化するコンテキストをキャプチャする。
SE-SSLは、位置表現学習を強化し、関係の空間性をさらに扱えるように、グローバルな方法でタイムアウェアな自己教師型学習タスクを設計する。
論文 参考訳(メタデータ) (2023-06-15T07:48:32Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Averaging Spatio-temporal Signals using Optimal Transport and Soft
Alignments [110.79706180350507]
Fr'teche は双対性を意味し, 時間的バレシェセンタを定義するために提案した損失が有効であることを示す。
手書き文字と脳画像データによる実験は、我々の理論的発見を裏付けるものである。
論文 参考訳(メタデータ) (2022-03-11T09:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。