論文の概要: Improving Region Representation Learning from Urban Imagery with Noisy Long-Caption Supervision
- arxiv url: http://arxiv.org/abs/2511.07062v1
- Date: Mon, 10 Nov 2025 12:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.253457
- Title: Improving Region Representation Learning from Urban Imagery with Noisy Long-Caption Supervision
- Title(参考訳): 騒々しいロングキャプション・スーパービジョンによる都市画像からの地域表現学習の改善
- Authors: Yimei Zhang, Guojiang Shen, Kaili Ning, Tongwei Ren, Xuebo Qiu, Mengmeng Wang, Xiangjie Kong,
- Abstract要約: 地域表現学習は、未ラベルの都市データから有意義な特徴を抽出することにより、都市コンピューティングにおいて重要な役割を担っている。
近年,Large Language Models (LLMs) を利用して,画像に基づく都市部表現学習にテキスト知識を取り入れることが研究されている。
本稿では,長文認識と騒音抑制による都市部表現学習を改善する,UrbanLNという新しい事前学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.72633898920108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Region representation learning plays a pivotal role in urban computing by extracting meaningful features from unlabeled urban data. Analogous to how perceived facial age reflects an individual's health, the visual appearance of a city serves as its ``portrait", encapsulating latent socio-economic and environmental characteristics. Recent studies have explored leveraging Large Language Models (LLMs) to incorporate textual knowledge into imagery-based urban region representation learning. However, two major challenges remain: i)~difficulty in aligning fine-grained visual features with long captions, and ii) suboptimal knowledge incorporation due to noise in LLM-generated captions. To address these issues, we propose a novel pre-training framework called UrbanLN that improves Urban region representation learning through Long-text awareness and Noise suppression. Specifically, we introduce an information-preserved stretching interpolation strategy that aligns long captions with fine-grained visual semantics in complex urban scenes. To effectively mine knowledge from LLM-generated captions and filter out noise, we propose a dual-level optimization strategy. At the data level, a multi-model collaboration pipeline automatically generates diverse and reliable captions without human intervention. At the model level, we employ a momentum-based self-distillation mechanism to generate stable pseudo-targets, facilitating robust cross-modal learning under noisy conditions. Extensive experiments across four real-world cities and various downstream tasks demonstrate the superior performance of our UrbanLN.
- Abstract(参考訳): 地域表現学習は、未ラベルの都市データから有意義な特徴を抽出することにより、都市コンピューティングにおいて重要な役割を担っている。
顔の年齢の知覚が個人の健康を反映しているのと同様、都市の視覚的外観は「ポートレート」として機能し、潜伏した社会経済的・環境的特徴を包含している。
近年,Large Language Models (LLMs) を利用して,画像に基づく都市部表現学習にテキスト知識を取り入れることが研究されている。
しかし、大きな課題が2つ残っている。
一 細かな視覚的特徴を長いキャプションに合わせることの難しさ及び
二 LLM生成キャプションの雑音による準最適知識の取り込み
これらの課題に対処するために,長文認識と騒音抑圧による都市部表現学習を改善するUrbanLNという新しい事前学習フレームワークを提案する。
具体的には,複雑な都市のシーンにおいて,長いキャプションと細かな視覚的セマンティクスを一致させる情報保存型ストレッチ補間戦略を提案する。
LLMが生成したキャプションから知識を効果的に抽出し、ノイズを除去するために、二重レベル最適化戦略を提案する。
データレベルでは、マルチモデルコラボレーションパイプラインが人間の介入なしに、多種多様な信頼性の高いキャプションを自動的に生成する。
モデルレベルでは、運動量に基づく自己蒸留機構を用いて安定な擬似ターゲットを生成し、雑音条件下での堅牢なクロスモーダル学習を容易にする。
実世界の4都市にわたる大規模な実験と様々な下流タスクは、UrbanLNの優れた性能を示している。
関連論文リスト
- GLip: A Global-Local Integrated Progressive Framework for Robust Visual Speech Recognition [72.29071664964633]
我々は、ロバストな視覚音声認識(VSR)のために設計されたグローバルローカル統合プログレッシブフレームワークGLipを提案する。
GLipは、グローバルな視覚的特徴とローカルな視覚的特徴の両方を、容易にアクセス可能な音声視覚データを用いて対応する音声音声単位に整合させることを学ぶ。
第2段階では、ローカル機能を関連するグローバルコンテキストと動的に統合するコンテキスト拡張モジュール(CEM)を導入します。
論文 参考訳(メタデータ) (2025-09-19T14:36:01Z) - Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes [0.9208007322096533]
本稿では,SAGAI:Streetscape Analysis with Generative Artificial Intelligenceを紹介する。
これは、オープンアクセスデータと視覚言語モデルを使用して、街路レベルの都市シーンを評価するためのモジュラーワークフローである。
タスク固有のトレーニングやプロプライエタリなソフトウェア依存関係なしで動作します。
論文 参考訳(メタデータ) (2025-04-23T09:08:06Z) - Urban Region Pre-training and Prompting: A Graph-based Approach [10.375941950028938]
我々は、地域表現学習のためのtextbfG$raph-based $textbfU$rban $textbfR$egion $textbfP$re-training と $textbfP$rompting フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-12T05:00:23Z) - UrbanVLP: Multi-Granularity Vision-Language Pretraining for Urban Socioeconomic Indicator Prediction [26.693692853787756]
都市社会経済指標の予測は、多様な都市景観における持続可能な開発に関連する様々な指標を推測することを目的としている。
事前訓練されたモデル、特に衛星画像に依存しているモデルは、二重課題に直面している。
論文 参考訳(メタデータ) (2024-03-25T14:57:18Z) - UrbanCLIP: Learning Text-enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web [37.332601383723585]
本稿では,テキストモダリティの知識を都市画像のプロファイリングに取り入れた最初のフレームワークを紹介する。
オープンソースのImage-to-Text LLMにより,衛星画像毎の詳細なテキスト記述を生成する。
モデルは画像とテキストのペアに基づいて訓練され、都市視覚表現学習のための自然言語の監督をシームレスに統一する。
論文 参考訳(メタデータ) (2023-10-22T02:32:53Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。