論文の概要: UrbanCLIP: Learning Text-enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web
- arxiv url: http://arxiv.org/abs/2310.18340v2
- Date: Sun, 24 Mar 2024 09:09:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 02:35:50.868960
- Title: UrbanCLIP: Learning Text-enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web
- Title(参考訳): UrbanCLIP:Webからのコントラスト言語画像によるテキスト強調都市域プロファイリングの学習
- Authors: Yibo Yan, Haomin Wen, Siru Zhong, Wei Chen, Haodong Chen, Qingsong Wen, Roger Zimmermann, Yuxuan Liang,
- Abstract要約: 本稿では,テキストモダリティの知識を都市画像のプロファイリングに取り入れた最初のフレームワークを紹介する。
オープンソースのImage-to-Text LLMにより,衛星画像毎の詳細なテキスト記述を生成する。
モデルは画像とテキストのペアに基づいて訓練され、都市視覚表現学習のための自然言語の監督をシームレスに統一する。
- 参考スコア(独自算出の注目度): 37.332601383723585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Urban region profiling from web-sourced data is of utmost importance for urban planning and sustainable development. We are witnessing a rising trend of LLMs for various fields, especially dealing with multi-modal data research such as vision-language learning, where the text modality serves as a supplement information for the image. Since textual modality has never been introduced into modality combinations in urban region profiling, we aim to answer two fundamental questions in this paper: i) Can textual modality enhance urban region profiling? ii) and if so, in what ways and with regard to which aspects? To answer the questions, we leverage the power of Large Language Models (LLMs) and introduce the first-ever LLM-enhanced framework that integrates the knowledge of textual modality into urban imagery profiling, named LLM-enhanced Urban Region Profiling with Contrastive Language-Image Pretraining (UrbanCLIP). Specifically, it first generates a detailed textual description for each satellite image by an open-source Image-to-Text LLM. Then, the model is trained on the image-text pairs, seamlessly unifying natural language supervision for urban visual representation learning, jointly with contrastive loss and language modeling loss. Results on predicting three urban indicators in four major Chinese metropolises demonstrate its superior performance, with an average improvement of 6.1% on R^2 compared to the state-of-the-art methods. Our code and the image-language dataset will be released upon paper notification.
- Abstract(参考訳): ウェブソースデータからの都市域のプロファイリングは、都市計画と持続可能な開発にとって最も重要である。
特に視覚言語学習などのマルチモーダルデータ研究では,テキストのモダリティが画像の補足情報として機能する。
都市域プロファイリングにおけるモダリティの組み合わせにテキストモダリティは導入されていないので,本論文では2つの基本的疑問に答えることを目指している。
一 テキストモダリティは都市域のプロファイリングを高めることができるか。
ii) もしそうなら、どのような点で、どの面に関して?
この疑問に答えるために,我々はLLM(Large Language Models, LLMs)の力を活用し, テキストモダリティの知識を都市画像プロファイリングに統合する初のLLM拡張フレームワーク, LLM拡張都市領域プロファイリング(LLM拡張都市領域プロファイリング, コントラスト言語-画像プレトレーニング(UrbanCLIP)を導入する。
具体的には、まず、オープンソースのImage-to-Text LLMにより、各衛星画像の詳細なテキスト記述を生成する。
そして、画像とテキストのペアに基づいてモデルを訓練し、対照的な損失と言語モデリングの損失を伴って、都市の視覚的表現学習のための自然言語の監督をシームレスに統一する。
中国の4大都市圏における3つの都市指標の予測結果は、最先端の方法と比較して、R^2の平均6.1%向上したことを示す。
私たちのコードと画像言語データセットは、紙の通知でリリースされます。
関連論文リスト
- TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - UrbanVLP: A Multi-Granularity Vision-Language Pre-Trained Foundation Model for Urban Indicator Prediction [26.693692853787756]
都市指標予測は、データ駆動手法を用いて、多様な都市景観における社会経済指標を推定することを目的としている。
事前訓練されたモデル、特に衛星画像に依存しているモデルは、二重課題に直面している。
論文 参考訳(メタデータ) (2024-03-25T14:57:18Z) - InternLM-XComposer: A Vision-Language Large Model for Advanced
Text-image Comprehension and Composition [111.65584066987036]
InternLM-XComposerは、高度な画像テキストの理解と合成を可能にする視覚言語による大規模モデルである。
シームレスに画像を統合するコヒーレントでコンテキスト的な記事を生成することができる。
画像がコンテンツを強化するテキスト内の領域をインテリジェントに識別し、最も適切な視覚的候補を自動的に挿入する。
論文 参考訳(メタデータ) (2023-09-26T17:58:20Z) - A Multi-Modal Context Reasoning Approach for Conditional Inference on
Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。
我々はModCRというマルチモーダルコンテキスト推論手法を提案する。
2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-08T08:05:40Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Vision-Language Pre-Training with Triple Contrastive Learning [45.80365827890119]
モーダル・インターモーダル・セルフ・スーパービジョンとクロスモーダル・イントラモーダル・セルフスーパービジョンの両方を活用することで、視覚言語事前学習のための三重コントラスト学習(TCL)を提案する。
マルチモーダル表現学習のための局所構造情報を考慮した最初の研究である。
論文 参考訳(メタデータ) (2022-02-21T17:54:57Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z) - Urban2Vec: Incorporating Street View Imagery and POIs for Multi-Modal
Urban Neighborhood Embedding [8.396746290518102]
Urban2Vecは、ストリートビューイメージと関心のポイントデータの両方を組み込んだ、教師なしマルチモーダルフレームワークである。
我々は,Urban2Vecがベースラインモデルよりも優れた性能を実現し,下流予測タスクにおける完全教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2020-01-29T21:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。