Fugu-MT 論文翻訳(概要): UrbanCLIP: Learning Text-enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web

論文の概要: UrbanCLIP: Learning Text-enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web

arxiv url: http://arxiv.org/abs/2310.18340v2
Date: Sun, 24 Mar 2024 09:09:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 02:35:50.868960
Title: UrbanCLIP: Learning Text-enhanced Urban Region Profiling with Contrastive Language-Image Pretraining from the Web
Title（参考訳）: UrbanCLIP:Webからのコントラスト言語画像によるテキスト強調都市域プロファイリングの学習
Authors: Yibo Yan, Haomin Wen, Siru Zhong, Wei Chen, Haodong Chen, Qingsong Wen, Roger Zimmermann, Yuxuan Liang,
Abstract要約: 本稿では,テキストモダリティの知識を都市画像のプロファイリングに取り入れた最初のフレームワークを紹介する。オープンソースのImage-to-Text LLMにより,衛星画像毎の詳細なテキスト記述を生成する。モデルは画像とテキストのペアに基づいて訓練され、都市視覚表現学習のための自然言語の監督をシームレスに統一する。
参考スコア（独自算出の注目度）: 37.332601383723585
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Urban region profiling from web-sourced data is of utmost importance for urban planning and sustainable development. We are witnessing a rising trend of LLMs for various fields, especially dealing with multi-modal data research such as vision-language learning, where the text modality serves as a supplement information for the image. Since textual modality has never been introduced into modality combinations in urban region profiling, we aim to answer two fundamental questions in this paper: i) Can textual modality enhance urban region profiling? ii) and if so, in what ways and with regard to which aspects? To answer the questions, we leverage the power of Large Language Models (LLMs) and introduce the first-ever LLM-enhanced framework that integrates the knowledge of textual modality into urban imagery profiling, named LLM-enhanced Urban Region Profiling with Contrastive Language-Image Pretraining (UrbanCLIP). Specifically, it first generates a detailed textual description for each satellite image by an open-source Image-to-Text LLM. Then, the model is trained on the image-text pairs, seamlessly unifying natural language supervision for urban visual representation learning, jointly with contrastive loss and language modeling loss. Results on predicting three urban indicators in four major Chinese metropolises demonstrate its superior performance, with an average improvement of 6.1% on R^2 compared to the state-of-the-art methods. Our code and the image-language dataset will be released upon paper notification.
Abstract（参考訳）: ウェブソースデータからの都市域のプロファイリングは、都市計画と持続可能な開発にとって最も重要である。特に視覚言語学習などのマルチモーダルデータ研究では,テキストのモダリティが画像の補足情報として機能する。都市域プロファイリングにおけるモダリティの組み合わせにテキストモダリティは導入されていないので,本論文では2つの基本的疑問に答えることを目指している。一テキストモダリティは都市域のプロファイリングを高めることができるか。 ii) もしそうなら、どのような点で、どの面に関して? この疑問に答えるために,我々はLLM(Large Language Models, LLMs)の力を活用し, テキストモダリティの知識を都市画像プロファイリングに統合する初のLLM拡張フレームワーク, LLM拡張都市領域プロファイリング(LLM拡張都市領域プロファイリング, コントラスト言語-画像プレトレーニング(UrbanCLIP)を導入する。具体的には、まず、オープンソースのImage-to-Text LLMにより、各衛星画像の詳細なテキスト記述を生成する。そして、画像とテキストのペアに基づいてモデルを訓練し、対照的な損失と言語モデリングの損失を伴って、都市の視覚的表現学習のための自然言語の監督をシームレスに統一する。中国の4大都市圏における3つの都市指標の予測結果は、最先端の方法と比較して、R^2の平均6.1%向上したことを示す。私たちのコードと画像言語データセットは、紙の通知でリリースされます。

関連論文リスト

Improving Region Representation Learning from Urban Imagery with Noisy Long-Caption Supervision [19.72633898920108]
地域表現学習は、未ラベルの都市データから有意義な特徴を抽出することにより、都市コンピューティングにおいて重要な役割を担っている。近年,Large Language Models (LLMs) を利用して,画像に基づく都市部表現学習にテキスト知識を取り入れることが研究されている。本稿では,長文認識と騒音抑制による都市部表現学習を改善する,UrbanLNという新しい事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-11-10T12:53:32Z)
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity [68.15983300711355]
Fine CapTIONは、任意のマスクを参照入力として認識し、異なるレベルの合成画像キャプションのための高解像度画像を処理する新しいVLMである。本研究では,多粒領域合成画像キャプションのための新しいデータセットであるコンポジションCAPを紹介し,コンポジション属性対応地域画像キャプションの課題を紹介した。
論文参考訳（メタデータ） (2024-11-23T02:20:32Z)
StreetviewLLM: Extracting Geographic Information Using a Chain-of-Thought Multimodal Large Language Model [12.789465279993864]
地理空間予測は災害管理、都市計画、公衆衛生など様々な分野において重要である。提案するStreetViewLLMは,大規模言語モデルと連鎖推論とマルチモーダルデータソースを統合した新しいフレームワークである。このモデルは、香港、東京、シンガポール、ロサンゼルス、ニューヨーク、ロンドン、パリを含む7つの世界都市に適用されている。
論文参考訳（メタデータ） (2024-11-19T05:15:19Z)
LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文参考訳（メタデータ） (2024-11-07T18:59:16Z)
AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文参考訳（メタデータ） (2024-07-11T03:18:53Z)
mTREE: Multi-Level Text-Guided Representation End-to-End Learning for Whole Slide Image Analysis [16.472295458683696]
マルチモーダル学習は視覚とテキストのデータを統合するが、その病理像やテキスト解析への応用は依然として困難である。マルチレベルテキストガイド表現のエンド・ツー・エンド・ラーニング(mTREE)を導入する。この新しいテキスト誘導アプローチは、テキスト病理情報からの情報を活用することで、WSI(Whole Slide Images)を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-05-28T04:47:44Z)
TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文参考訳（メタデータ） (2024-04-15T13:54:35Z)
UrbanVLP: Multi-Granularity Vision-Language Pretraining for Urban Region Profiling [26.693692853787756]
都市域プロファイリングは、与えられた都市域の低次元表現を学習することを目的としている。事前訓練されたモデル特に衛星画像に依存しているモデルは二重課題に直面しています衛星データからマクロレベルのパターンのみに集中するとバイアスが発生する可能性がある。事前訓練されたモデルにおける解釈可能性の欠如は、都市計画の透明な証拠を提供することにおける実用性を制限している。
論文参考訳（メタデータ） (2024-03-25T14:57:18Z)
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition [111.65584066987036]
InternLM-XComposerは、高度な画像テキストの理解と合成を可能にする視覚言語による大規模モデルである。シームレスに画像を統合するコヒーレントでコンテキスト的な記事を生成することができる。画像がコンテンツを強化するテキスト内の領域をインテリジェントに識別し、最も適切な視覚的候補を自動的に挿入する。
論文参考訳（メタデータ） (2023-09-26T17:58:20Z)
MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文参考訳（メタデータ） (2020-10-12T00:43:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。