論文の概要: Urban In-Context Learning: Bridging Pretraining and Inference through Masked Diffusion for Urban Profiling
- arxiv url: http://arxiv.org/abs/2508.03042v1
- Date: Tue, 05 Aug 2025 03:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.758864
- Title: Urban In-Context Learning: Bridging Pretraining and Inference through Masked Diffusion for Urban Profiling
- Title(参考訳): 都市におけるインテクスト学習: 都市プロファイリングのためのマスケディフュージョンによるブリッジ事前学習と推論
- Authors: Ruixing Zhang, Bo Wang, Tongyu Zhu, Leilei Sun, Weifeng Lv,
- Abstract要約: 都市プロファイリングは、未知の地域の都市プロファイルを予測することを目的としており、経済と社会の国勢調査において重要な役割を果たしている。
本研究では,都市における事前学習と推論をマスク付き自動符号化プロセスを通じて統合するフレームワークであるUrban In-Context Learningを提案する。
我々の一段法は最先端の2段法より一貫して優れている。
- 参考スコア(独自算出の注目度): 24.580422599018387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Urban profiling aims to predict urban profiles in unknown regions and plays a critical role in economic and social censuses. Existing approaches typically follow a two-stage paradigm: first, learning representations of urban areas; second, performing downstream prediction via linear probing, which originates from the BERT era. Inspired by the development of GPT style models, recent studies have shown that novel self-supervised pretraining schemes can endow models with direct applicability to downstream tasks, thereby eliminating the need for task-specific fine-tuning. This is largely because GPT unifies the form of pretraining and inference through next-token prediction. However, urban data exhibit structural characteristics that differ fundamentally from language, making it challenging to design a one-stage model that unifies both pretraining and inference. In this work, we propose Urban In-Context Learning, a framework that unifies pretraining and inference via a masked autoencoding process over urban regions. To capture the distribution of urban profiles, we introduce the Urban Masked Diffusion Transformer, which enables each region' s prediction to be represented as a distribution rather than a deterministic value. Furthermore, to stabilize diffusion training, we propose the Urban Representation Alignment Mechanism, which regularizes the model's intermediate features by aligning them with those from classical urban profiling methods. Extensive experiments on three indicators across two cities demonstrate that our one-stage method consistently outperforms state-of-the-art two-stage approaches. Ablation studies and case studies further validate the effectiveness of each proposed module, particularly the use of diffusion modeling.
- Abstract(参考訳): 都市プロファイリングは、未知の地域の都市プロファイルを予測することを目的としており、経済と社会の国勢調査において重要な役割を果たしている。
既存のアプローチは、2段階のパラダイムに従うのが一般的である。第1に、都市部の表現を学習し、第2に、線形探索によって下流の予測を行う。
GPTスタイルモデルの開発に触発されて、近年の研究では、新しい自己教師型事前学習スキームは、下流タスクに直接的な適用性を持つモデルを実現することができ、タスク固有の微調整の必要性を排除できることが示されている。
これは主に、GPTが事前学習と推論の形式を次々に予測することによって統一するからである。
しかし、都市データは言語と根本的に異なる構造的特徴を示しており、事前学習と推論の両方を統一するワンステージモデルの設計が困難である。
本研究では,都市における事前学習と推論をマスク付き自動符号化プロセスを通じて統合するフレームワークであるUrban In-Context Learningを提案する。
都市プロファイルの分布を捉えるために,各地域の予測を決定論的値ではなく分布として表現できる都市マスケ拡散変換器を導入する。
さらに,拡散訓練の安定化を図るため,従来の都市プロファイリング手法と整列することで,モデルの中間的特徴を規則化する都市表現アライメント機構を提案する。
2つの都市にまたがる3つの指標に関する大規模な実験は、我々の1段階の手法が最先端の2段階のアプローチを一貫して上回っていることを示している。
アブレーション研究とケーススタディにより,各モジュールの有効性,特に拡散モデルの有効性が検証された。
関連論文リスト
- Multimodal Contrastive Learning of Urban Space Representations from POI Data [2.695321027513952]
CaLLiPer (Contrastive Language-Location Pre-training) は連続的な都市空間をベクトル表現に埋め込む表現学習モデルである。
ロンドンにおける都市空間表現の学習に適用し,CaLLiPerの有効性を検証する。
論文 参考訳(メタデータ) (2024-11-09T16:24:07Z) - Explainable Hierarchical Urban Representation Learning for Commuting Flow Prediction [1.5156879440024378]
通勤フロー予測は、現実の自治体の業務に欠かせない課題である。
我々は,異なるタイプのODフローを予測するために,意味のある領域埋め込みを生成するヘテロジニアスグラフベースモデルを開発した。
提案モデルでは,一様都市構造の観点から既存モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-27T03:30:01Z) - Urban Region Pre-training and Prompting: A Graph-based Approach [10.375941950028938]
我々は、地域表現学習のためのtextbfG$raph-based $textbfU$rban $textbfR$egion $textbfP$re-training と $textbfP$rompting フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-12T05:00:23Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - UrbanVLP: Multi-Granularity Vision-Language Pretraining for Urban Socioeconomic Indicator Prediction [26.693692853787756]
都市社会経済指標の予測は、多様な都市景観における持続可能な開発に関連する様々な指標を推測することを目的としている。
事前訓練されたモデル、特に衛星画像に依存しているモデルは、二重課題に直面している。
論文 参考訳(メタデータ) (2024-03-25T14:57:18Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Urban Region Embedding via Multi-View Contrastive Prediction [22.164358462563996]
さまざまなビューにまたがる一貫性のある表現を学ぶために、新しいパイプラインを構築します。
本モデルは,都市部における表現学習において,最先端のベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-15T10:53:09Z) - Dual-stage Flows-based Generative Modeling for Traceable Urban Planning [33.03616838528995]
本稿では,正規化フローに基づく新しい生成フレームワーク,すなわちDual-stage Urban Flowsフレームワークを提案する。
我々は、機能ゾーン間の関係を捉え、異なる側面の情報を融合するために、情報融合モジュールを使用します。
我々の枠組みは、都市計画作業における他の生成モデルよりも優れる。
論文 参考訳(メタデータ) (2023-10-03T21:49:49Z) - Contextualizing MLP-Mixers Spatiotemporally for Urban Data Forecast at Scale [54.15522908057831]
本稿では,STTD予測を大規模に行うためのコンピュータ・ミクサーの適応版を提案する。
我々の結果は、この単純な効率の良いソリューションが、いくつかのトラフィックベンチマークでテストした場合、SOTAベースラインに匹敵する可能性があることを驚くほど示している。
本研究は, 実世界のSTTD予測において, 簡便な有効モデルの探索に寄与する。
論文 参考訳(メタデータ) (2023-07-04T05:19:19Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Masked Autoencoders As The Unified Learners For Pre-Trained Sentence
Representation [77.47617360812023]
我々は、最近提案されたMAEスタイルの事前学習戦略であるRetroMAEを拡張し、幅広い文表現タスクをサポートする。
最初のステージでは、ベースモデルが学習されるWikipedia、BookCorpusなど、一般的なコーパス上でRetroMAEを実行する。
第2段階はドメイン固有のデータ、例えばMS MARCOやNLIで行われ、ベースモデルはRetroMAEとコントラスト学習に基づいて継続的に訓練される。
論文 参考訳(メタデータ) (2022-07-30T14:34:55Z) - Video Prediction via Example Guidance [156.08546987158616]
ビデオ予測タスクでは、将来のコンテンツとダイナミクスのマルチモーダルな性質を捉えることが大きな課題である。
本研究では,有効な将来状態の予測を効果的に行うための,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。