論文の概要: When Urban Region Profiling Meets Large Language Models
- arxiv url: http://arxiv.org/abs/2310.18340v1
- Date: Sun, 22 Oct 2023 02:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-05 13:52:28.870191
- Title: When Urban Region Profiling Meets Large Language Models
- Title(参考訳): 都市域のプロファイリングが大規模言語モデルと出会うとき
- Authors: Yibo Yan, Haomin Wen, Siru Zhong, Wei Chen, Haodong Chen, Qingsong
Wen, Roger Zimmermann, Yuxuan Liang
- Abstract要約: 本稿では,テキストモダリティの知識を都市画像のプロファイリングに取り入れた最初のフレームワークを紹介する。
オープンソースのImage-to-Text LLMにより,衛星画像毎の詳細なテキスト記述を生成する。
モデルは画像とテキストのペアに基づいて訓練され、都市視覚表現学習のための自然言語の監督をシームレスに統一する。
- 参考スコア(独自算出の注目度): 38.94052422159733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Urban region profiling from web-sourced data is of utmost importance for
urban planning and sustainable development. We are witnessing a rising trend of
LLMs for various fields, especially dealing with multi-modal data research such
as vision-language learning, where the text modality serves as a supplement
information for the image. Since textual modality has never been introduced
into modality combinations in urban region profiling, we aim to answer two
fundamental questions in this paper: i) Can textual modality enhance urban
region profiling? ii) and if so, in what ways and with regard to which aspects?
To answer the questions, we leverage the power of Large Language Models (LLMs)
and introduce the first-ever LLM-enhanced framework that integrates the
knowledge of textual modality into urban imagery profiling, named LLM-enhanced
Urban Region Profiling with Contrastive Language-Image Pretraining (UrbanCLIP).
Specifically, it first generates a detailed textual description for each
satellite image by an open-source Image-to-Text LLM. Then, the model is trained
on the image-text pairs, seamlessly unifying natural language supervision for
urban visual representation learning, jointly with contrastive loss and
language modeling loss. Results on predicting three urban indicators in four
major Chinese metropolises demonstrate its superior performance, with an
average improvement of 6.1% on R^2 compared to the state-of-the-art methods.
Our code and the image-language dataset will be released upon paper
notification.
- Abstract(参考訳): web ソースデータからの都市部のプロファイリングは,都市計画と持続可能な開発において極めて重要である。
画像の補足情報としてテキストモダリティが機能する視覚言語学習などのマルチモーダルデータ研究において,様々な分野におけるllmの台頭が注目されている。
都市域プロファイリングにおけるモダリティの組み合わせにテキストモダリティが導入されたことはないため、本稿では2つの基本的な質問に答える。
i)テキストモダリティは都市部のプロファイリングを促進することができるか?
ii)もしそうなら,どのような面で,どのような面に関して?
この疑問に答えるために,我々はLLM(Large Language Models, LLMs)の力を活用し, テキストモダリティの知識を都市画像プロファイリングに統合する初のLLM拡張フレームワーク, LLM拡張都市領域プロファイリング(LLM拡張都市領域プロファイリング, コントラスト言語-画像プレトレーニング(UrbanCLIP)を導入する。
具体的には、まず、オープンソースのImage-to-Text LLMにより、各衛星画像の詳細なテキスト記述を生成する。
次に、画像とテキストのペアでモデルを訓練し、都市視覚表現学習のための自然言語監督をシームレスに統一し、コントラスト損失と言語モデリング損失とを併用する。
中国の4大都市圏における3つの都市指標の予測結果は、最先端の方法と比較して、R^2の平均6.1%向上したことを示す。
私たちのコードとイメージ言語データセットは、ペーパー通知でリリースされます。
関連論文リスト
- FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity [68.15983300711355]
Fine CapTIONは、任意のマスクを参照入力として認識し、異なるレベルの合成画像キャプションのための高解像度画像を処理する新しいVLMである。
本研究では,多粒領域合成画像キャプションのための新しいデータセットであるコンポジションCAPを紹介し,コンポジション属性対応地域画像キャプションの課題を紹介した。
論文 参考訳(メタデータ) (2024-11-23T02:20:32Z) - StreetviewLLM: Extracting Geographic Information Using a Chain-of-Thought Multimodal Large Language Model [12.789465279993864]
地理空間予測は災害管理、都市計画、公衆衛生など様々な分野において重要である。
提案するStreetViewLLMは,大規模言語モデルと連鎖推論とマルチモーダルデータソースを統合した新しいフレームワークである。
このモデルは、香港、東京、シンガポール、ロサンゼルス、ニューヨーク、ロンドン、パリを含む7つの世界都市に適用されている。
論文 参考訳(メタデータ) (2024-11-19T05:15:19Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - mTREE: Multi-Level Text-Guided Representation End-to-End Learning for Whole Slide Image Analysis [16.472295458683696]
マルチモーダル学習は視覚とテキストのデータを統合するが、その病理像やテキスト解析への応用は依然として困難である。
マルチレベルテキストガイド表現のエンド・ツー・エンド・ラーニング(mTREE)を導入する。
この新しいテキスト誘導アプローチは、テキスト病理情報からの情報を活用することで、WSI(Whole Slide Images)を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-28T04:47:44Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - UrbanVLP: Multi-Granularity Vision-Language Pretraining for Urban Region Profiling [26.693692853787756]
都市域プロファイリングは、与えられた都市域の低次元表現を学習することを目的としている。
事前訓練されたモデル 特に衛星画像に依存しているモデルは 二重課題に直面しています
衛星データからマクロレベルのパターンのみに集中するとバイアスが発生する可能性がある。
事前訓練されたモデルにおける解釈可能性の欠如は、都市計画の透明な証拠を提供することにおける実用性を制限している。
論文 参考訳(メタデータ) (2024-03-25T14:57:18Z) - InternLM-XComposer: A Vision-Language Large Model for Advanced
Text-image Comprehension and Composition [111.65584066987036]
InternLM-XComposerは、高度な画像テキストの理解と合成を可能にする視覚言語による大規模モデルである。
シームレスに画像を統合するコヒーレントでコンテキスト的な記事を生成することができる。
画像がコンテンツを強化するテキスト内の領域をインテリジェントに識別し、最も適切な視覚的候補を自動的に挿入する。
論文 参考訳(メタデータ) (2023-09-26T17:58:20Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。