論文の概要: UrbanMoE: A Sparse Multi-Modal Mixture-of-Experts Framework for Multi-Task Urban Region Profiling
- arxiv url: http://arxiv.org/abs/2601.22746v1
- Date: Fri, 30 Jan 2026 09:25:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.346887
- Title: UrbanMoE: A Sparse Multi-Modal Mixture-of-Experts Framework for Multi-Task Urban Region Profiling
- Title(参考訳): UrbanMoE:マルチタスク都市域プロファイリングのためのスパースマルチモーダル・ミックス・オブ・エクササイズ・フレームワーク
- Authors: Pingping Liu, Jiamiao Liu, Zijian Zhang, Hao Miao, Qi Jiang, Qingliang Li, Qiuzhan Zhou, Irwin King,
- Abstract要約: 我々は,マルチタスク都市域プロファイリングのベンチマークを開発し,マルチモーダルな特徴と強力なベースラインの多種多様なセットを特徴とする。
次に,マルチタスクの課題を解決するために構築された,最初のスパースなマルチモーダル・マルチエキスパートフレームワークであるUrbanMoEを提案する。
ベンチマークでは,UrbanMoEがすべてのベースラインに対して常に優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 47.568568425459716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Urban region profiling, the task of characterizing geographical areas, is crucial for urban planning and resource allocation. However, existing research in this domain faces two significant limitations. First, most methods are confined to single-task prediction, failing to capture the interconnected, multi-faceted nature of urban environments where numerous indicators are deeply correlated. Second, the field lacks a standardized experimental benchmark, which severely impedes fair comparison and reproducible progress. To address these challenges, we first establish a comprehensive benchmark for multi-task urban region profiling, featuring multi-modal features and a diverse set of strong baselines to ensure a fair and rigorous evaluation environment. Concurrently, we propose UrbanMoE, the first sparse multi-modal, multi-expert framework specifically architected to solve the multi-task challenge. Leveraging a sparse Mixture-of-Experts architecture, it dynamically routes multi-modal features to specialized sub-networks, enabling the simultaneous prediction of diverse urban indicators. We conduct extensive experiments on three real-world datasets within our benchmark, where UrbanMoE consistently demonstrates superior performance over all baselines. Further in-depth analysis validates the efficacy and efficiency of our approach, setting a new state-of-the-art and providing the community with a valuable tool for future research in urban analytics
- Abstract(参考訳): 地理的地域を特徴づける課題である都市域のプロファイリングは、都市計画と資源配分に不可欠である。
しかし、この領域における既存の研究は2つの大きな制限に直面している。
第一に、ほとんどの手法は単一タスクの予測に限られており、多くの指標が深い相関関係にある都市環境の相互接続された多面的な性質を捉えていない。
第2に、標準化された実験ベンチマークが欠如しており、公正な比較と再現可能な進歩を著しく妨げている。
これらの課題に対処するため,我々はまず,マルチタスク都市域プロファイリングのための総合的なベンチマークを構築し,多モード特徴と多様なベースラインを特徴とし,公平で厳密な評価環境を確保する。
同時に,マルチタスクの課題を解決するために構築された,最初のスパースなマルチモーダル・マルチエキスパートフレームワークであるUrbanMoEを提案する。
Sparse Mixture-of-Expertsアーキテクチャを利用することで、マルチモーダル機能を特別なサブネットワークに動的にルーティングし、多様な都市指標の同時予測を可能にする。
ベンチマークでは,UrbanMoEがすべてのベースラインに対して常に優れたパフォーマンスを示している。
さらなる奥行き分析は、我々のアプローチの有効性と効率を検証し、新しい最先端を築き、都市分析の今後の研究に有用なツールをコミュニティに提供する。
関連論文リスト
- Urban-R1: Reinforced MLLMs Mitigate Geospatial Biases for Urban General Intelligence [64.36291202666212]
アーバン・ジェネラル・インテリジェンス(UGI)とは、複雑な都市環境を理解し、推論できるAIシステムである。
近年, LLM と MLLM の教師付き微調整 (SFT) を用いた都市基盤モデルの構築が進められている。
MLLMをUGIの目的と整合させる強化学習に基づくポストトレーニングフレームワークであるUrban-R1を提案する。
論文 参考訳(メタデータ) (2025-10-18T15:59:09Z) - UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding [5.312363883238377]
我々は,マルチモーダルデータを同時に処理するマルチモーダルな大規模言語モデルである$textitUrbanLLaVA$を紹介した。
ドメイン知識学習から空間推論の強化を分離する多段階学習フレームワークを提案する。
3つの都市での実験結果から、$textitUrbanLLaVA$は、シングルモーダルタスクと複雑なクロスモーダルタスクの両方において、オープンソースおよびプロプライエタリなMLLMより優れています。
論文 参考訳(メタデータ) (2025-06-29T13:04:27Z) - UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios [60.492736455572015]
複雑な多視点都市シナリオにおけるLMM評価のためのベンチマークであるUrBenchを提案する。
UrBenchには、リージョンレベルとロールレベルの両方で、厳密にキュレートされた11.6Kの質問が含まれている。
21のLMMに対する評価は、現在のLMMが都市環境においていくつかの面で苦戦していることを示している。
論文 参考訳(メタデータ) (2024-08-30T13:13:35Z) - CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks [10.22654338686634]
大規模言語モデル (LLMs) と視覚言語モデル (VLMs) は、実際の有効性と信頼性を確保するために欠かせないものとなっている。
都市研究のための体系的評価ベンチマークを構築する上での課題は、都市データの多様性にある。
本稿では,対話型シミュレータによる評価プラットフォームである textitCityBench を設計する。
論文 参考訳(メタデータ) (2024-06-20T02:25:07Z) - Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for
Cross-City Semantic Segmentation using High-Resolution Domain Adaptation
Networks [82.82866901799565]
我々は,都市間セマンティックセマンティックセグメンテーションタスクの研究を目的とした,新しいマルチモーダルリモートセンシングベンチマークデータセット(ハイパースペクトル,マルチスペクトル,SARを含む)を構築した。
単一都市に留まらず,多都市環境からAIモデルの一般化能力を促進するため,高解像度なドメイン適応ネットワークであるHighDANを提案する。
高DANは, 並列高分解能融合方式で, 都市景観の空間的トポロジカルな構造を良好に維持することができる。
論文 参考訳(メタデータ) (2023-09-26T23:55:39Z) - Attentive Graph Enhanced Region Representation Learning [7.4106801792345705]
都市部を正確にかつ包括的に表現することは,様々な都市計画・分析業務に不可欠である。
本研究では,複数のグラフから包括的依存関係を抽出し,都市域のリッチな意味表現を学習することを目的としたAttentive Graph Enhanced Region Representation Learning (ATGRL)モデルを提案する。
論文 参考訳(メタデータ) (2023-07-06T16:38:43Z) - CityNet: A Comprehensive Multi-Modal Urban Dataset for Advanced Research in Urban Computing [1.9774168196078137]
我々は,7つの都市からのさまざまなデータを組み込んだマルチモーダル都市データセットであるCityNetを紹介する。
我々はCityNetの利用を促進するために、広範なデータマイニングと機械学習の実験を行っている。
論文 参考訳(メタデータ) (2021-06-30T04:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。