論文の概要: Interpretable Multimodal Framework for Human-Centered Street Assessment: Integrating Visual-Language Models for Perceptual Urban Diagnostics
- arxiv url: http://arxiv.org/abs/2506.05087v1
- Date: Thu, 05 Jun 2025 14:34:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.75991
- Title: Interpretable Multimodal Framework for Human-Centered Street Assessment: Integrating Visual-Language Models for Perceptual Urban Diagnostics
- Title(参考訳): 人間中心ストリートアセスメントのための解釈可能なマルチモーダルフレームワーク:知覚的都市診断のための視覚言語モデルの統合
- Authors: HaoTian Lan,
- Abstract要約: 本稿では,新しいマルチモーダルストリート評価フレームワーク(MSEF)を紹介する。
パラメータ効率適応のためにLoRAとP-Tuning v2を用いてフレームワークを微調整する。
このモデルは、客観的特徴に関するF1スコアの0.84と、集約された居住者の知覚との89.3%の一致を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While objective street metrics derived from imagery or GIS have become standard in urban analytics, they remain insufficient to capture subjective perceptions essential to inclusive urban design. This study introduces a novel Multimodal Street Evaluation Framework (MSEF) that fuses a vision transformer (VisualGLM-6B) with a large language model (GPT-4), enabling interpretable dual-output assessment of streetscapes. Leveraging over 15,000 annotated street-view images from Harbin, China, we fine-tune the framework using LoRA and P-Tuning v2 for parameter-efficient adaptation. The model achieves an F1 score of 0.84 on objective features and 89.3 percent agreement with aggregated resident perceptions, validated across stratified socioeconomic geographies. Beyond classification accuracy, MSEF captures context-dependent contradictions: for instance, informal commerce boosts perceived vibrancy while simultaneously reducing pedestrian comfort. It also identifies nonlinear and semantically contingent patterns -- such as the divergent perceptual effects of architectural transparency across residential and commercial zones -- revealing the limits of universal spatial heuristics. By generating natural-language rationales grounded in attention mechanisms, the framework bridges sensory data with socio-affective inference, enabling transparent diagnostics aligned with SDG 11. This work offers both methodological innovation in urban perception modeling and practical utility for planning systems seeking to reconcile infrastructural precision with lived experience.
- Abstract(参考訳): 画像やGISから派生した客観的ストリートメトリクスは、都市分析において標準となっているが、包括的都市デザインに不可欠な主観的知覚を捉えるには不十分である。
本研究では,視覚変換器 (VisualGLM-6B) と大言語モデル (GPT-4) を融合した新しいマルチモーダル街路評価フレームワーク (MSEF) を提案する。
中国ハルビンの15,000点以上の注釈付きストリートビュー画像を利用して、パラメータ効率の適応のためにLoRAとP-Tuning v2を用いてフレームワークを微調整する。
このモデルは、客観的特徴に関するF1スコアの0.84と、階層化された社会経済地理学的地形で検証された総合的な住民認識との89.3%の一致を達成している。
分類精度以外にも、MSEFは文脈に依存した矛盾を捉えている。
また、住宅や商業地帯にまたがる建築的透明性の分断的な知覚的効果など、非線型で意味的なパターンを識別し、普遍的な空間的ヒューリスティックの限界を明らかにしている。
このフレームワークは、注意機構に根ざした自然言語の合理性を生成することにより、感覚データを社会影響推論でブリッジし、SDG11に整合した透明な診断を可能にする。
この研究は、都市認識モデリングにおける方法論的革新と、生きた経験とインフラの精度を一致させようとする計画システムにおける実用性の両方を提供する。
関連論文リスト
- Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Image-based Visibility Analysis Replacing Line-of-Sight Simulation: An Urban Landmark Perspective [2.3315115235829342]
この研究は、新しい画像ベースの可視性分析手法を導入することで、従来のLoSベースのアプローチに挑戦する。
最初のケーススタディでは、大都市における6つの高いランドマーク構造物の視認性を検出するための信頼性を87%の精度で証明した。
第二のケースでは、提案された可視グラフは、ロンドンのテムズ川に沿った複数のランドマークの接続形態と強度を明らかにする。
論文 参考訳(メタデータ) (2025-05-17T03:41:45Z) - Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - Collaborative Imputation of Urban Time Series through Cross-city Meta-learning [54.438991949772145]
メタ学習型暗黙的ニューラル表現(INR)を利用した新しい協調的計算パラダイムを提案する。
次に,モデルに依存しないメタ学習による都市間協調学習手法を提案する。
20のグローバル都市から得られた多様な都市データセットの実験は、我々のモデルの優れた計算性能と一般化可能性を示している。
論文 参考訳(メタデータ) (2025-01-20T07:12:40Z) - Potential Field as Scene Affordance for Behavior Change-Based Visual Risk Object Identification [4.896236083290351]
行動変化に基づく視覚的リスクオブジェクト識別(Visual-ROI)について検討する。
既存の手法はしばしば空間的精度と時間的一貫性に重大な制限を呈する。
本稿では,これらの課題を克服するために,バードアイビュー表現を用いた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:17:50Z) - RING#: PR-by-PE Global Localization with Roto-translation Equivariant Gram Learning [20.688641105430467]
GPS信号が信頼できない場合、グローバルなローカライゼーションは自動運転やロボティクスの応用において不可欠である。
ほとんどのアプローチは、逐次位置認識(PR)とポーズ推定(PE)により、グローバルなローカライゼーションを実現する。
ポーズ推定から直接導出することで、別の場所認識の必要性を回避できる新しいパラダイムであるPR-by-PEローカライゼーションを導入する。
本稿では,鳥眼視(BEV)空間で動作する終端PR-by-PEローカライゼーションネットワークであるRING#を提案する。
論文 参考訳(メタデータ) (2024-08-30T18:42:53Z) - Heterogeneous Graph Neural Networks with Post-hoc Explanations for Multi-modal and Explainable Land Use Inference [11.753345219488745]
本稿では、異種グラフニューラルネットワーク(HGN)と説明可能なAI技術を組み合わせた土地利用推定のための説明可能なフレームワークを提案する。
実験により、提案したHGNは6つの土地利用指標すべてに対して、ベースライングラフニューラルネットワークを著しく上回っていることが示された。
これらの分析は,提案したHGNが都市計画や政策立案において,都市利害関係者を適切に支援できることを示した。
論文 参考訳(メタデータ) (2024-06-19T17:39:10Z) - Contrastive Region Guidance: Improving Grounding in Vision-Language
Models without Training [79.27663870280038]
Contrastive Region Guidance (CRG) は、オープンソースの視覚言語モデルで視覚的プロンプトに応答できる訓練不要のガイダンス手法である。
領域アノテーションが提供されると、CRGはViP-Benchで最大11.1%精度が向上する。
また,空間推論へのCRGの適用性を示すとともに,What'sUpでは10%の改善が見られた。
論文 参考訳(メタデータ) (2024-03-04T18:55:30Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。