論文の概要: ToPT: Task-Oriented Prompt Tuning for Urban Region Representation Learning
- arxiv url: http://arxiv.org/abs/2602.01610v1
- Date: Mon, 02 Feb 2026 03:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.892753
- Title: ToPT: Task-Oriented Prompt Tuning for Urban Region Representation Learning
- Title(参考訳): ToPT:都市部表現学習のためのタスク指向型プロンプトチューニング
- Authors: Zitao Guo, Changyang Jiang, Tianhong Zhao, Jinzhou Cao, Genan Dai, Bowen Zhang,
- Abstract要約: ToPTは,空間認識型領域埋め込み学習(SREL)とタスク認識型領域埋め込みプロンプト(Prompt4RE)の2つのモジュールから構成される。
Prompt4REはタスク指向のプロンプトを実行する: フリーズされたマルチモーダルな大規模言語モデル(MLLM)はタスク固有のテンプレートを処理し、セマンティックベクターを得る。
複数のタスクや都市での実験では最先端のパフォーマンスを示し、64.2%まで改善されている。
- 参考スコア(独自算出の注目度): 6.574674801344639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning effective region embeddings from heterogeneous urban data underpins key urban computing tasks (e.g., crime prediction, resource allocation). However, prevailing two-stage methods yield task-agnostic representations, decoupling them from downstream objectives. Recent prompt-based approaches attempt to fix this but introduce two challenges: they often lack explicit spatial priors, causing spatially incoherent inter-region modeling, and they lack robust mechanisms for explicit task-semantic alignment. We propose ToPT, a two-stage framework that delivers spatially consistent fusion and explicit task alignment. ToPT consists of two modules: spatial-aware region embedding learning (SREL) and task-aware prompting for region embeddings (Prompt4RE). SREL employs a Graphormer-based fusion module that injects spatial priors-distance and regional centrality-as learnable attention biases to capture coherent, interpretable inter-region interactions. Prompt4RE performs task-oriented prompting: a frozen multimodal large language model (MLLM) processes task-specific templates to obtain semantic vectors, which are aligned with region embeddings via multi-head cross-attention for stable task conditioning. Experiments across multiple tasks and cities show state-of-the-art performance, with improvements of up to 64.2\%, validating the necessity and complementarity of spatial priors and prompt-region alignment. The code is available at https://github.com/townSeven/Prompt4RE.git.
- Abstract(参考訳): 不均一な都市データからの効果的な領域埋め込みの学習は、重要な都市コンピューティングタスク(犯罪予測、資源配分など)を支える。
しかし、一般的な2段階の手法はタスクに依存しない表現をもたらし、下流の目的から切り離す。
近年のプロンプトベースのアプローチでは,空間的先行性を欠くことが多く,領域間モデリングの空間的不整合が生じ,タスク・セマンティックアライメントの堅牢なメカニズムが欠如している。
空間的に一貫した融合と明示的なタスクアライメントを実現する2段階フレームワークであるToPTを提案する。
ToPTは、空間認識型領域埋め込み学習(SREL)とタスク認識型領域埋め込みプロンプト(Prompt4RE)の2つのモジュールから構成される。
SRELはGraphormerベースの融合モジュールを使用し、空間的先行距離と局所集中度を学習可能な注意バイアスとして注入し、一貫性のある解釈可能な領域間相互作用を捕捉する。
Prompt4REはタスク指向のプロンプトを実行する: 凍結したマルチモーダルな大規模言語モデル(MLLM)はタスク固有のテンプレートを処理してセマンティックベクトルを得る。
複数のタスクや都市での実験では、最先端のパフォーマンスを示し、最大64.2\%の改善、空間的先行性の必要性と相補性を検証する。
コードはhttps://github.com/townSeven/Prompt4RE.gitで公開されている。
関連論文リスト
- Recover and Match: Open-Vocabulary Multi-Label Recognition through Knowledge-Constrained Optimal Transport [45.866011150937425]
上記の問題に効果的に対処する新しいフレームワークであるRAM(Recover And Match)を紹介します。
RAMは3つの異なるドメインのさまざまなデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-19T15:33:44Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - SCE-MAE: Selective Correspondence Enhancement with Masked Autoencoder for Self-Supervised Landmark Estimation [20.29438820908913]
自己監督的ランドマーク推定は、局所的な特徴表現の形成を要求する困難なタスクである。
本稿では,高価なハイパーカラムではなく,バニラ特徴マップ上で動作するフレームワークであるSCE-MAEを紹介する。
我々は,SCE-MAEが高効率で頑健であり,既存のSOTA法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-05-28T16:14:10Z) - Region-aware Distribution Contrast: A Novel Approach to Multi-Task Partially Supervised Learning [50.88504784466931]
マルチタスク密度予測にはセマンティックセグメンテーション、深さ推定、表面正規推定が含まれる。
既存のソリューションは通常、グローバルなクロスタスク画像マッチングのためのグローバルなイメージ表現の学習に依存している。
本提案では,ガウス分布を用いた地域表現をモデル化する。
論文 参考訳(メタデータ) (2024-03-15T12:41:30Z) - Region-Enhanced Feature Learning for Scene Semantic Segmentation [19.20735517821943]
計算負担を軽減するために,細粒度点やボクセルの代わりに点雲の中間表現として領域を用いることを提案する。
本研究では,セマンティック空間領域抽出段階と領域依存モデリング段階からなるRFEモジュールを設計する。
我々のREFL-NetはScanNetV2で1.8% mIoUゲイン、S3DISデータセットで1.7% mIoUゲインを無視可能な計算コストで達成している。
論文 参考訳(メタデータ) (2023-04-15T06:35:06Z) - Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-03-18T15:38:17Z) - SLAN: Self-Locator Aided Network for Cross-Modal Understanding [89.20623874655352]
モーダル理解タスクのための自己ローカレータ支援ネットワーク(SLAN)を提案する。
SLANは、異なるテキストで条件付けられた関心領域をローカライズするための領域フィルタと領域アダプタから構成される。
5つのクロスモーダル理解タスクにおいて、かなり競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-11-28T11:42:23Z) - Multi-Scale Representation Learning for Spatial Feature Distributions
using Grid Cells [11.071527762096053]
本研究では,位置の絶対位置と空間的関係を符号化するスペース2Vecという表現学習モデルを提案する。
その結果、Space2Vecはマルチスケール表現のため、確立されたMLアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-02-16T04:22:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。