論文の概要: Learning Street View Representations with Spatiotemporal Contrast
- arxiv url: http://arxiv.org/abs/2502.04638v1
- Date: Fri, 07 Feb 2025 03:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:58:05.903083
- Title: Learning Street View Representations with Spatiotemporal Contrast
- Title(参考訳): 時空間コントラストを用いたストリートビュー表現の学習
- Authors: Yong Li, Yingjing Huang, Gengchen Mai, Fan Zhang,
- Abstract要約: 本研究では,街路景観の時間的・空間的特性を利用して動的都市環境の画像表現を学習する,革新的な自己教師型学習フレームワークを提案する。
提案手法は,視覚的位置認識,社会経済的推定,人間環境認識などのタスクにおいて,従来の監督的・非監督的手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 7.005144428229216
- License:
- Abstract: Street view imagery is extensively utilized in representation learning for urban visual environments, supporting various sustainable development tasks such as environmental perception and socio-economic assessment. However, it is challenging for existing image representations to specifically encode the dynamic urban environment (such as pedestrians, vehicles, and vegetation), the built environment (including buildings, roads, and urban infrastructure), and the environmental ambiance (such as the cultural and socioeconomic atmosphere) depicted in street view imagery to address downstream tasks related to the city. In this work, we propose an innovative self-supervised learning framework that leverages temporal and spatial attributes of street view imagery to learn image representations of the dynamic urban environment for diverse downstream tasks. By employing street view images captured at the same location over time and spatially nearby views at the same time, we construct contrastive learning tasks designed to learn the temporal-invariant characteristics of the built environment and the spatial-invariant neighborhood ambiance. Our approach significantly outperforms traditional supervised and unsupervised methods in tasks such as visual place recognition, socioeconomic estimation, and human-environment perception. Moreover, we demonstrate the varying behaviors of image representations learned through different contrastive learning objectives across various downstream tasks. This study systematically discusses representation learning strategies for urban studies based on street view images, providing a benchmark that enhances the applicability of visual data in urban science. The code is available at https://github.com/yonglleee/UrbanSTCL.
- Abstract(参考訳): ストリートビューイメージは、都市視覚環境の表現学習に広く利用されており、環境認識や社会経済評価などの持続可能な開発タスクを支援している。
しかし、既存の画像表現では、歩行者、車両、植生などの動的な都市環境、建築環境(建物、道路、都市インフラを含む)、街路イメージに描かれた環境環境(文化的・社会経済的な雰囲気など)を具体化して、都市に関連する下流の課題に対処することが困難である。
本研究では,街路景観の時間的・空間的特性を利用して,多様な下流課題のための動的な都市環境の画像表現を学習する,革新的な自己教師型学習フレームワークを提案する。
時間とともに同じ場所と空間的に近い場所を同時に捉えたストリートビュー画像を利用することで、構築された環境と空間的不変な周辺環境の時間的不変特性を学習するためのコントラスト学習タスクを構築する。
提案手法は,視覚的位置認識,社会経済的評価,人間環境認識などのタスクにおいて,従来の監督的・非監督的手法を著しく上回っている。
さらに、下流の様々なタスクにおいて、異なるコントラスト学習目標を通して学習された画像表現の様々な挙動を示す。
本研究では,都市科学における視覚データの適用性を高める指標として,街路ビュー画像に基づく都市研究の表現学習戦略を体系的に検討する。
コードはhttps://github.com/yonglleee/UrbanSTCLで公開されている。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Visualizing Routes with AI-Discovered Street-View Patterns [4.153397474276339]
本稿では,視覚的特徴の定量化にセマンティック潜在ベクトルを用いる手法を提案する。
街路ビュー画像の集合間の画像類似度を計算し,空間像パターンの探索を行う。
インタラクティブな可視化プロトタイプであるVivaRoutesを紹介し、これらのパターンで視覚化がどのように活用され、ユーザーが複数のルートを効果的かつインタラクティブに探索するのに役立つかを示す。
論文 参考訳(メタデータ) (2024-03-30T17:32:26Z) - Incorporating simulated spatial context information improves the effectiveness of contrastive learning models [1.4179832037924995]
本稿では,既存のコントラスト学習手法を補完する,環境空間類似性(ESS)というユニークなアプローチを提案する。
ESSは部屋の分類や空間予測タスク、特に馴染みの無い環境での卓越した熟練を可能にします。
潜在的に変革的な応用は、ロボット工学から宇宙探査まで多岐にわたる。
論文 参考訳(メタデータ) (2024-01-26T03:44:58Z) - Knowledge-infused Contrastive Learning for Urban Imagery-based
Socioeconomic Prediction [13.26632316765164]
衛星・ストリートビュー画像のようなウェブ上の都市画像は、社会経済予測の重要な情報源として現れてきた。
本稿では,都市イメージに基づく社会経済予測のための知識注入型コントラスト学習モデルを提案する。
提案手法は,衛星画像と路面画像の両方に適用可能である。
論文 参考訳(メタデータ) (2023-02-25T14:53:17Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Urban Visual Intelligence: Studying Cities with AI and Street-level
Imagery [12.351356101876616]
本稿では,都市の外観と機能に関する文献を概観し,その理解に視覚情報がどのように使われているかを説明する。
概念的フレームワークであるUrban Visual Intelligenceは、新しい画像データソースとAI技術が、研究者が都市を知覚し、測定する方法をどう変えているか、詳しく説明するために導入された。
論文 参考訳(メタデータ) (2023-01-02T10:00:26Z) - Mitigating Urban-Rural Disparities in Contrastive Representation Learning with Satellite Imagery [19.93324644519412]
土地被覆の特徴の特定における都市と農村の格差のリスクを考察する。
本稿では,畳み込みニューラルネットワークモデルの多レベル潜在空間を非バイアス化する手法として,コントラッシブラーニングを用いた高密度表現(FairDCL)を提案する。
得られた画像表現は、下流の都市と農村の予測格差を軽減し、現実の衛星画像の最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-11-16T04:59:46Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Compositional Scene Representation Learning via Reconstruction: A Survey [48.33349317481124]
構成シーン表現学習はそのような能力を実現するタスクである。
ディープニューラルネットワークは表現学習において有利であることが証明されている。
大量のラベルのないデータを使用し、費用がかかるデータアノテーションを避けることができるため、再構築による学習は有利である。
論文 参考訳(メタデータ) (2022-02-15T02:14:05Z) - Environment Predictive Coding for Embodied Agents [92.31905063609082]
本稿では,環境レベルの表現を具体化エージェントに学習する自己教師型手法である環境予測符号化を導入する。
GibsonとMatterport3Dのフォトリアリスティックな3D環境に関する実験により、我々の手法は、限られた経験の予算しか持たない課題において、最先端の課題よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-02-03T23:43:16Z) - VisualEchoes: Spatial Image Representation Learning through Echolocation [97.23789910400387]
いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害者さえもエコーロケーションを行う能力を持っている。
エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。
我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。
論文 参考訳(メタデータ) (2020-05-04T16:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。