Fugu-MT 論文翻訳(概要): Urban-ImageNet: A Large-Scale Multi-Modal Dataset and Evaluation Framework for Urban Space Perception

論文の概要: Urban-ImageNet: A Large-Scale Multi-Modal Dataset and Evaluation Framework for Urban Space Perception

arxiv url: http://arxiv.org/abs/2605.09936v1
Date: Mon, 11 May 2026 03:33:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.498868
Title: Urban-ImageNet: A Large-Scale Multi-Modal Dataset and Evaluation Framework for Urban Space Perception
Title（参考訳）: 都市空間認識のための大規模マルチモーダルデータセットと評価フレームワークUrban-ImageNet
Authors: Yiwei Ou, Chung Ching Cheung, Jun Yang Ang, Xiaobin Ren, Ronggui Sun, Guansong Gao, Kaiqi Zhao, Manfredo Manfredini,
Abstract要約: ユーザ生成ソーシャルメディア画像からの都市空間知覚のための大規模マルチモーダルデータセットと評価ベンチマークであるUrban-ImageNetを提案する。コーパスには、2019年から2025年にかけて中国の24都市にある61の都市で、Weiboから収集された200万以上のソーシャルメディアイメージと、ペアのテキスト投稿が含まれており、ベンチマークサブセットは1K、10K、100Kスケールで、大規模なトレーニングと評価のためのフル2Mコーパスが含まれている。
参考スコア（独自算出の注目度）: 1.3542309660598904
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present Urban-ImageNet, a large-scale multi-modal dataset and evaluation benchmark for urban space perception from user-generated social media imagery. The corpus contains over 2 Million public social media images and paired textual posts collected from Weibo across 61 urban sites in 24 Chinese cities across 2019-2025, with controlled benchmark subsets at 1K, 10K, and 100K scale and a full 2M corpus for large-scale training and evaluation. Urban-ImageNet is organized by HUSIC, a Hierarchical Urban Space Image Classification framework that defines a 10-class taxonomy grounded in urban theory. The taxonomy is designed to distinguish activated and non-activated public spaces, exterior and interior urban environments, accommodation spaces, consumption content, portraits, and non-spatial social-media content. Rather than treating urban imagery as generic scene data, Urban-ImageNet evaluates whether machine perception models can capture spatial, social, and functional distinctions that are central to urban studies. The benchmark supports three tasks within one standardized library: (T1) urban scene semantic classification, (T2) cross-modal image-text retrieval, and (T3) instance segmentation. Our experiments evaluate representative vision, vision-language, and segmentation models, revealing strong performance on supervised scene classification but more challenging behavior in cross-modal retrieval and instance-level urban object segmentation. A multi-scale study further examines how model performance changes as balanced training data increases from 1K, 10K to 100K images. Urban-ImageNet provides a unified, theory-grounded, multi-city benchmark for evaluating how AI systems perceive and interpret contemporary urban spaces across modalities, scales, and task formulations. Dataset and benchmark are available at: huggingface.co/datasets/Yiwei-Ou/Urban-ImageNet and github.com/yiasun/dataset-2.
Abstract（参考訳）: ユーザ生成ソーシャルメディア画像からの都市空間知覚のための大規模マルチモーダルデータセットと評価ベンチマークであるUrban-ImageNetを提案する。コーパスには、2019年から2025年にかけて中国の24都市にある61の都市で、Weiboから収集された200万以上のソーシャルメディアイメージと、ペアのテキスト投稿が含まれており、ベンチマークサブセットは1K、10K、100Kスケールで、大規模なトレーニングと評価のためのフル2Mコーパスが含まれている。 Urban-ImageNetは、階層的な都市空間画像分類フレームワークであるHUSICによって構成されている。この分類は、アクティベーションと非アクティブな公共空間、外部と内部の都市環境、宿泊スペース、消費内容、肖像画、非空間的なソーシャルメディアコンテンツを区別するために設計されている。都市イメージを総合的なシーンデータとして扱うのではなく、都市研究の中心となる空間的・社会的・機能的区別をマシン認識モデルが捉えることができるかどうかを評価する。このベンチマークは、(T1)都市シーンセマンティック分類、(T2)クロスモーダル画像テキスト検索、(T3)インスタンスセグメンテーションの3つのタスクをサポートする。本実験では, 視覚, 視覚言語, セグメンテーションモデルの評価を行い, 教師付きシーン分類において高い性能を示すとともに, クロスモーダル検索やインスタンスレベルの都市オブジェクトセグメンテーションにおいて, より困難な挙動を示す。マルチスケールの研究では、バランスの取れたトレーニングデータが1K、10Kから100Kの画像に増加するにつれて、モデルの性能がどのように変化するかをさらに調べている。 Urban-ImageNetは、AIシステムが現代都市空間を、モダリティ、スケール、タスクの定式化に対してどのように認識し、解釈するかを評価するために、統一的で理論的なマルチシティベンチマークを提供する。 huggingface.co/datasets/Yiwei-Ou/Urban-ImageNetとgithub.com/yiasun/dataset-2。

関連論文リスト

UrbanVerse: Scaling Urban Simulation by Watching City-Tour Videos [64.22243628420799]
クラウドソーシングされた都市間ビデオから物理を意識したインタラクティブなシミュレーションシーンに変換する,データ駆動型リアルタイムシミュレーションシステムであるUrbanVerseを紹介した。アイザックシムで運営されているUrbanVerseは、24か国から160の高品質なシーンを提供している。実験により、UrbanVerseのシーンは現実世界のセマンティクスとレイアウトを保存し、手作業によるシーンに匹敵する人間評価されたリアリズムを達成することが示されている。
論文参考訳（メタデータ） (2025-10-16T17:42:34Z)
Urban Forms Across Continents: A Data-Driven Comparison of Lausanne and Philadelphia [7.693465097015469]
本研究では,地理的・文化的に異なる都市間での都市型を識別・比較するためのデータ駆動型枠組みを提案する。ローザンヌ市,スイス市,フィラデルフィア市において,地形,多様性,緑地,興味点に関連する多次元的特徴を抽出した。その結果, 規模, 密度, 文化状況の相違にもかかわらず, 両都市にまたがるクラスタタイプが出現している。
論文参考訳（メタデータ） (2025-05-05T18:13:22Z)
Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes [0.9208007322096533]
本稿では,SAGAI:Streetscape Analysis with Generative Artificial Intelligenceを紹介する。これは、オープンアクセスデータと視覚言語モデルを使用して、街路レベルの都市シーンを評価するためのモジュラーワークフローである。タスク固有のトレーニングやプロプライエタリなソフトウェア依存関係なしで動作します。
論文参考訳（メタデータ） (2025-04-23T09:08:06Z)
UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios [60.492736455572015]
複雑な多視点都市シナリオにおけるLMM評価のためのベンチマークであるUrBenchを提案する。 UrBenchには、リージョンレベルとロールレベルの両方で、厳密にキュレートされた11.6Kの質問が含まれている。 21のLMMに対する評価は、現在のLMMが都市環境においていくつかの面で苦戦していることを示している。
論文参考訳（メタデータ） (2024-08-30T13:13:35Z)
Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for Cross-City Semantic Segmentation using High-Resolution Domain Adaptation Networks [82.82866901799565]
我々は,都市間セマンティックセマンティックセグメンテーションタスクの研究を目的とした,新しいマルチモーダルリモートセンシングベンチマークデータセット(ハイパースペクトル,マルチスペクトル,SARを含む)を構築した。単一都市に留まらず,多都市環境からAIモデルの一般化能力を促進するため,高解像度なドメイン適応ネットワークであるHighDANを提案する。高DANは, 並列高分解能融合方式で, 都市景観の空間的トポロジカルな構造を良好に維持することができる。
論文参考訳（メタデータ） (2023-09-26T23:55:39Z)
UrbanBIS: a Large-scale Benchmark for Fine-grained Urban Building Instance Segmentation [50.52615875873055]
都市BISは6つの実際の都市のシーンで構成され、25億点があり、面積は10.78平方キロメートルである。 UrbanBISは、建物、車両、植生、道路、橋など、豊富な都市オブジェクトに意味レベルのアノテーションを提供する。 UrbanBISは、きめ細かいサブカテゴリを導入した最初の3Dデータセットである。
論文参考訳（メタデータ） (2023-05-04T08:01:38Z)
Deep-learning coupled with novel classification method to classify the urban environment of the developing world [4.819654695540227]
本稿では,機械解析に容易に利用できる新しい分類法を提案し,開発途上国における方法論の適用性を示す。周辺を考慮に入れた非公式・形式的な空間の観点から都市部を分類する。このモデルは75%の精度と60%のMean IoUでセグメント化できる。
論文参考訳（メタデータ） (2020-11-25T16:08:07Z)
Cars Can't Fly up in the Sky: Improving Urban-Scene Segmentation via Height-driven Attention Networks [32.01932474622993]
本稿では,都市景観画像の本質的な特徴を活かし,ハイトドリブンアテンションネットワーク(HANet)と呼ばれる汎用アドオンモジュールを提案する。画素の垂直位置に応じて情報的特徴やクラスを選択的に強調する。提案手法は,ResNet-101をベースとしたセグメンテーションモデルにおいて,Cityscapesベンチマークにおける新しい最先端性能を実現する。
論文参考訳（メタデータ） (2020-03-11T06:22:12Z)
Urban2Vec: Incorporating Street View Imagery and POIs for Multi-Modal Urban Neighborhood Embedding [8.396746290518102]
Urban2Vecは、ストリートビューイメージと関心のポイントデータの両方を組み込んだ、教師なしマルチモーダルフレームワークである。我々は,Urban2Vecがベースラインモデルよりも優れた性能を実現し,下流予測タスクにおける完全教師付き手法に匹敵する性能を示す。
論文参考訳（メタデータ） (2020-01-29T21:30:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。