Fugu-MT 論文翻訳(概要): Urban Socio-Semantic Segmentation with Vision-Language Reasoning

論文の概要: Urban Socio-Semantic Segmentation with Vision-Language Reasoning

arxiv url: http://arxiv.org/abs/2601.10477v1
Date: Thu, 15 Jan 2026 15:00:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-16 19:43:19.185694
Title: Urban Socio-Semantic Segmentation with Vision-Language Reasoning
Title（参考訳）: 視覚・言語推論による都市社会・セマンティックセグメンテーション
Authors: Yu Wang, Yi Wang, Rui Dai, Yujie Wang, Kaikui Liu, Xiangxiang Chu, Yansheng Li,
Abstract要約: 本稿では,ソシオセグという都市ソシオセマンティックデータセットを紹介する。本稿では,SocioReasonerという新しい視覚言語推論フレームワークを提案する。 SocioReasonerは、社会的意味論を識別し、注釈付けする人間のプロセスをシミュレートする。
参考スコア（独自算出の注目度）: 23.452173835888967
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As hubs of human activity, urban surfaces consist of a wealth of semantic entities. Segmenting these various entities from satellite imagery is crucial for a range of downstream applications. Current advanced segmentation models can reliably segment entities defined by physical attributes (e.g., buildings, water bodies) but still struggle with socially defined categories (e.g., schools, parks). In this work, we achieve socio-semantic segmentation by vision-language model reasoning. To facilitate this, we introduce the Urban Socio-Semantic Segmentation dataset named SocioSeg, a new resource comprising satellite imagery, digital maps, and pixel-level labels of social semantic entities organized in a hierarchical structure. Additionally, we propose a novel vision-language reasoning framework called SocioReasoner that simulates the human process of identifying and annotating social semantic entities via cross-modal recognition and multi-stage reasoning. We employ reinforcement learning to optimize this non-differentiable process and elicit the reasoning capabilities of the vision-language model. Experiments demonstrate our approach's gains over state-of-the-art models and strong zero-shot generalization. Our dataset and code are available in https://github.com/AMAP-ML/SocioReasoner.
Abstract（参考訳）: 人間活動のハブとして、都市表面は豊富な意味的実体から構成される。衛星画像からこれらの様々な実体を分離することは、下流の様々な用途に不可欠である。現在の高度なセグメンテーションモデルは、物理的属性(例えば、建物、水域)で定義されたエンティティを確実に分割することができるが、それでも社会的に定義されたカテゴリ(例えば、学校、公園)と戦っている。本研究では,視覚言語モデル推論による社会意味のセグメンテーションを実現する。そこで我々はSocioSegという,衛星画像,デジタル地図,および階層構造で整理された社会意味エンティティのピクセルレベルラベルからなる新たな資源を,都市社会・セマンティックセグメンテーションデータセットとして紹介する。また,SocioReasonerと呼ばれる新たな視覚言語推論フレームワークを提案する。我々は、この非微分不可能なプロセスを最適化し、視覚言語モデルの推論能力を引き出すために強化学習を採用する。実験は、最先端のモデルと強力なゼロショット一般化に対するアプローチの優位性を実証する。データセットとコードはhttps://github.com/AMAP-ML/SocioReasoner.comから入手可能です。

関連論文リスト

Insight: Interpretable Semantic Hierarchies in Vision-Language Encoders [52.94006363830628]
言語対応の視覚基盤モデルは、下流の様々なタスクで強く機能する。近年の研究では、これらの表現を人間の解釈可能な概念に分解するが、空間的接地が乏しく、画像分類に限られている。入力画像に人間が解釈可能で空間的に接地した、きめ細かい概念を提供する言語対応概念基盤モデルであるInsightを提案する。
論文参考訳（メタデータ） (2026-01-20T09:57:26Z)
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文参考訳（メタデータ） (2025-03-25T14:34:06Z)
Context-Aware Semantic Segmentation: Enhancing Pixel-Level Understanding with Large Language Models for Advanced Vision Applications [0.0]
本稿では,Large Language Models (LLM) と最先端のビジョンバックボーンを統合する新しいコンテキスト認識セマンティックフレームワークを提案する。視覚と言語の特徴を整合させるクロスアテンションメカニズムを導入し、モデルがコンテキストをより効果的に推論できるようにする。この研究は視覚と言語の間のギャップを埋め、自律運転、医療画像、ロボット工学などの応用における、よりインテリジェントでコンテキスト対応の視覚システムへの道を開く。
論文参考訳（メタデータ） (2025-03-25T02:12:35Z)
Pushing the Limits of Vision-Language Models in Remote Sensing without Human Annotations [5.065947993017157]
本研究では、画像復号化機械学習モデルを用いて、視覚言語データセットをキュレートする手法を提案する。約960万の視覚言語対のデータセットをVHR画像で収集しました。結果として得られたモデルは、公開可能なビジョン言語データセットを活用できないものよりも優れていた。
論文参考訳（メタデータ） (2024-09-11T06:36:08Z)
Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。 VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文参考訳（メタデータ） (2024-04-16T19:27:21Z)
Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。 VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。 CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文参考訳（メタデータ） (2023-06-01T17:19:43Z)
Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。 ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文参考訳（メタデータ） (2023-06-01T08:47:06Z)
Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文参考訳（メタデータ） (2022-10-18T17:01:35Z)
Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文参考訳（メタデータ） (2022-07-18T09:20:04Z)
Explainable Semantic Space by Grounding Language to Vision with Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文参考訳（メタデータ） (2021-11-13T19:54:15Z)
Rethinking Semantic Segmentation Evaluation for Explainability and Model Selection [12.786648212233116]
地域ベースのオーバーおよびアンダーセグメンテーションを評価するための新しいメトリクスを紹介します。分析して他のメトリクスと比較し、実世界のアプリケーションにおけるセマンティックセグメンテーションモデルのパフォーマンスをより説明しやすくなることを示す。
論文参考訳（メタデータ） (2021-01-21T03:12:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。