論文の概要: CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.22282v1
- Date: Sat, 25 Oct 2025 12:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.018597
- Title: CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning
- Title(参考訳): CityRiSE:強化学習による視覚言語モデルにおける都市社会経済状態の推論
- Authors: Tianhui Liu, Hetian Pang, Xin Zhang, Jie Feng, Yong Li, Pan Hui,
- Abstract要約: textbfReasontextbfing urban textbfSocio-textbfEconomic status in LVLMs through pure reinforcement learning (RL)。
実験により、緊急推論プロセスのCityRiSEが既存のベースラインを大幅に上回っていることが示された。
本研究は,LLとLVLMを組み合わせることで,都市社会経済的センシングの理解と一般論の両立を図ったものである。
- 参考スコア(独自算出の注目度): 17.496690548652264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Harnessing publicly available, large-scale web data, such as street view and satellite imagery, urban socio-economic sensing is of paramount importance for achieving global sustainable development goals. With the emergence of Large Vision-Language Models (LVLMs), new opportunities have arisen to solve this task by treating it as a multi-modal perception and understanding problem. However, recent studies reveal that LVLMs still struggle with accurate and interpretable socio-economic predictions from visual data. To address these limitations and maximize the potential of LVLMs, we introduce \textbf{CityRiSE}, a novel framework for \textbf{R}eason\textbf{i}ng urban \textbf{S}ocio-\textbf{E}conomic status in LVLMs through pure reinforcement learning (RL). With carefully curated multi-modal data and verifiable reward design, our approach guides the LVLM to focus on semantically meaningful visual cues, enabling structured and goal-oriented reasoning for generalist socio-economic status prediction. Experiments demonstrate that CityRiSE with emergent reasoning process significantly outperforms existing baselines, improving both prediction accuracy and generalization across diverse urban contexts, particularly for prediction on unseen cities and unseen indicators. This work highlights the promise of combining RL and LVLMs for interpretable and generalist urban socio-economic sensing.
- Abstract(参考訳): ストリートビューや衛星画像などの大規模Webデータを公開し、都市社会経済的センシングは、地球規模の持続可能な開発目標を達成する上で、最重要課題である。
LVLM(Large Vision-Language Models)の出現に伴い、マルチモーダル認識と理解の問題として扱うことで、この課題を解決する新たな機会が生まれている。
しかし、最近の研究では、LVLMは視覚データからの正確で解釈可能な社会経済予測に苦戦していることが明らかになっている。
これらの制約に対処し、LVLMのポテンシャルを最大化するために、純粋強化学習(RL)を通してLVLMにおける「textbf{R}eason\textbf{i}ng urban \textbf{S}ocio-\textbf{E}conomic status」の新たなフレームワークである「textbf{CityRiSE}」を紹介した。
提案手法は,多モードデータと検証可能な報酬設計により,LVLMが意味論的に意味のある視覚的手がかりに焦点をあてることを可能にし,一般社会経済状態予測のための構造化された目標志向の推論を可能にする。
実験により、創発的推論プロセスによるCityRiSEは、既存のベースラインを著しく上回り、様々な都市状況における予測精度と一般化の両方を改善した。
本研究は,LLとLVLMを組み合わせることで,都市社会経済的センシングの理解と一般論の両立を図ったものである。
関連論文リスト
- Urban-R1: Reinforced MLLMs Mitigate Geospatial Biases for Urban General Intelligence [64.36291202666212]
アーバン・ジェネラル・インテリジェンス(UGI)とは、複雑な都市環境を理解し、推論できるAIシステムである。
近年, LLM と MLLM の教師付き微調整 (SFT) を用いた都市基盤モデルの構築が進められている。
MLLMをUGIの目的と整合させる強化学習に基づくポストトレーニングフレームワークであるUrban-R1を提案する。
論文 参考訳(メタデータ) (2025-10-18T15:59:09Z) - Beyond Naïve Prompting: Strategies for Improved Zero-shot Context-aided Forecasting with LLMs [57.82819770709032]
大規模言語モデル (LLM) は、na "ive direct prompting" を通じて効果的な文脈支援予測を行うことができる。
ReDPは、明確な推論トレースを抽出することで、解釈可能性を改善し、コンテキスト上でモデルの推論を評価することができる。
CorDPはLLMを活用して、既存の予測をコンテキストで洗練し、現実の予測パイプラインにおける適用性を高める。
IC-DPは、文脈支援予測タスクの歴史的例を即時に組み込むことを提案し、大規模モデルにおいても精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-08-13T16:02:55Z) - CityLens: Benchmarking Large Language-Vision Models for Urban Socioeconomic Sensing [18.67492140450614]
CityLensは、衛星やストリートビューの画像から社会経済指標を予測するために、大きな言語ビジョンモデル(LLVM)の能力を評価するために設計されたベンチマークである。
経済、教育、犯罪、輸送、健康、環境の6つの主要な領域にまたがる、合計17のグローバルな分散都市をカバーするマルチモーダルデータセットを構築した。
その結果,LLVMは有望な知覚・推論能力を示すが,都市社会経済指標の予測には限界があることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-31T12:25:33Z) - MuseCL: Predicting Urban Socioeconomic Indicators via Multi-Semantic Contrastive Learning [13.681538916025021]
MuseCLは、都市部の詳細なプロファイリングと社会経済予測のためのフレームワークである。
ストリートビューとリモートセンシング画像のためのコントラスト的なサンプルペアを構築し,人間の移動性に類似点を生かした。
これらの領域に埋め込まれたPOIテキストから,事前学習したテキストエンコーダを用いて意味的な洞察を抽出する。
論文 参考訳(メタデータ) (2024-06-23T09:49:41Z) - CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks [10.22654338686634]
大規模言語モデル (LLMs) と視覚言語モデル (VLMs) は、実際の有効性と信頼性を確保するために欠かせないものとなっている。
都市研究のための体系的評価ベンチマークを構築する上での課題は、都市データの多様性にある。
本稿では,対話型シミュレータによる評価プラットフォームである textitCityBench を設計する。
論文 参考訳(メタデータ) (2024-06-20T02:25:07Z) - Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。
以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。
本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T16:26:56Z) - UrbanVLP: Multi-Granularity Vision-Language Pretraining for Urban Socioeconomic Indicator Prediction [26.693692853787756]
都市社会経済指標の予測は、多様な都市景観における持続可能な開発に関連する様々な指標を推測することを目的としている。
事前訓練されたモデル、特に衛星画像に依存しているモデルは、二重課題に直面している。
論文 参考訳(メタデータ) (2024-03-25T14:57:18Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Knowledge-infused Contrastive Learning for Urban Imagery-based
Socioeconomic Prediction [13.26632316765164]
衛星・ストリートビュー画像のようなウェブ上の都市画像は、社会経済予測の重要な情報源として現れてきた。
本稿では,都市イメージに基づく社会経済予測のための知識注入型コントラスト学習モデルを提案する。
提案手法は,衛星画像と路面画像の両方に適用可能である。
論文 参考訳(メタデータ) (2023-02-25T14:53:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。