論文の概要: Cross-Modal Urban Sensing: Evaluating Sound-Vision Alignment Across Street-Level and Aerial Imagery
- arxiv url: http://arxiv.org/abs/2506.03388v1
- Date: Tue, 03 Jun 2025 20:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.050653
- Title: Cross-Modal Urban Sensing: Evaluating Sound-Vision Alignment Across Street-Level and Aerial Imagery
- Title(参考訳): クロスモーダルな都市センシング:ストリートレベルとエアリアル画像間の音像アライメントの評価
- Authors: Pengyu Chen, Xiao Huang, Teng Fei, Sicheng Wang,
- Abstract要約: そこで我々は,ジオレファレンス・サウンド・レコーディングをストリートレベルとリモートセンシングの両方に統合するマルチモーダル・アプローチを採用した。
埋め込みモデルではセグメンテーションに基づく手法が視覚構造と音響生態学の解釈可能なリンクを提供するのに対し、セグメンテーションベースのモデルは優れたセグメンテーションアライメントを提供する。
- 参考スコア(独自算出の注目度): 13.86994497464469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Environmental soundscapes convey substantial ecological and social information regarding urban environments; however, their potential remains largely untapped in large-scale geographic analysis. In this study, we investigate the extent to which urban sounds correspond with visual scenes by comparing various visual representation strategies in capturing acoustic semantics. We employ a multimodal approach that integrates geo-referenced sound recordings with both street-level and remote sensing imagery across three major global cities: London, New York, and Tokyo. Utilizing the AST model for audio, along with CLIP and RemoteCLIP for imagery, as well as CLIPSeg and Seg-Earth OV for semantic segmentation, we extract embeddings and class-level features to evaluate cross-modal similarity. The results indicate that street view embeddings demonstrate stronger alignment with environmental sounds compared to segmentation outputs, whereas remote sensing segmentation is more effective in interpreting ecological categories through a Biophony--Geophony--Anthrophony (BGA) framework. These findings imply that embedding-based models offer superior semantic alignment, while segmentation-based methods provide interpretable links between visual structure and acoustic ecology. This work advances the burgeoning field of multimodal urban sensing by offering novel perspectives for incorporating sound into geospatial analysis.
- Abstract(参考訳): 環境音環境は、都市環境に関する生態学的・社会的な重要な情報を伝達するが、そのポテンシャルは、大規模な地理的分析においてほとんど失われていない。
本研究では, 都市音と視覚環境との対応性について, 音響的意味論を捉える上で, 様々な視覚的表現戦略を比較して検討した。
我々は、ロンドン、ニューヨーク、東京の3大大都市において、ジオレファレンス・サウンド・レコーディングとストリートレベルおよびリモートセンシング画像を統合するマルチモーダル・アプローチを採用している。
音声のASTモデルと、画像のCLIPとRemoteCLIP、セマンティックセグメンテーションのためのCLIPSegとSeg-Earth OVを用いて、埋め込みとクラスレベルの特徴を抽出し、クロスモーダルな類似性を評価する。
その結果, 街路景観の埋め込みは, セグメンテーション出力と比較して環境音との整合性が強く, リモートセンシングセグメンテーションは, バイオフォニー-Geophony-Anthrophony (BGA) フレームワークを通じて生態カテゴリーの解釈に有効であることが示唆された。
これらの結果から,埋め込み型モデルは優れたセマンティックアライメントを提供する一方で,セグメンテーション型手法は視覚構造と音響生態学の解釈可能なリンクを提供することがわかった。
この研究は、空間分析に音を取り入れた新しい視点を提供することによって、マルチモーダル都市センシングの急成長する分野を推し進める。
関連論文リスト
- SoundSculpt: Direction and Semantics Driven Ambisonic Target Sound Extraction [5.989764659998189]
SoundSculptは、アンビソニック録音からターゲット音場を抽出するように設計されたニューラルネットワークである。
SoundSculptはアンビソニック・イン・アンビソニック・アウトアーキテクチャを採用しており、空間情報とセマンティック・埋め込みの両方を条件にしている。
論文 参考訳(メタデータ) (2025-05-30T22:15:10Z) - SounDiT: Geo-Contextual Soundscape-to-Landscape Generation [28.099729084181092]
本稿では,新しい問題-Geo-Contextual Soundscape-to-Landscape (GeoS2L) を提案する。
GeoS2Lは環境音環境から地理的にリアルな景観画像を合成することを目的としている。
論文 参考訳(メタデータ) (2025-05-19T05:47:13Z) - PSM: Learning Probabilistic Embeddings for Multi-scale Zero-Shot Soundscape Mapping [7.076417856575795]
サウンドスケープは、ある場所で知覚される音響環境によって定義される。
本研究では,地球上の音環境をマッピングする枠組みを提案する。
我々は、マルチスケールの衛星画像で位置を表現し、この画像、音声、テキストの合同表現を学習する。
論文 参考訳(メタデータ) (2024-08-13T17:37:40Z) - ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling [57.1025908604556]
環境音響モデルは、室内環境の物理的特性によって音がどのように変換されるかを表す。
本研究では,非マップ環境の環境音響モデルを効率的に構築する新しい課題であるアクティブ音響サンプリングを提案する。
我々は,音声・視覚センサストリームからの情報を利用してエージェントナビゲーションを誘導し,最適な音響データサンプリング位置を決定する強化学習ポリシーであるActiveRIRを紹介する。
論文 参考訳(メタデータ) (2024-04-24T21:30:01Z) - Multi-Level Neural Scene Graphs for Dynamic Urban Environments [64.26401304233843]
本稿では, 動的都市環境に対する新しい分解可能放射場アプローチを提案する。
本稿では,数百の高速移動物体を含む数十のシーケンスから数千の画像にスケールする多段階ニューラルシーングラフ表現を提案する。
論文 参考訳(メタデータ) (2024-03-29T21:52:01Z) - Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for
Cross-City Semantic Segmentation using High-Resolution Domain Adaptation
Networks [82.82866901799565]
我々は,都市間セマンティックセマンティックセグメンテーションタスクの研究を目的とした,新しいマルチモーダルリモートセンシングベンチマークデータセット(ハイパースペクトル,マルチスペクトル,SARを含む)を構築した。
単一都市に留まらず,多都市環境からAIモデルの一般化能力を促進するため,高解像度なドメイン適応ネットワークであるHighDANを提案する。
高DANは, 並列高分解能融合方式で, 都市景観の空間的トポロジカルな構造を良好に維持することができる。
論文 参考訳(メタデータ) (2023-09-26T23:55:39Z) - Mitigating Urban-Rural Disparities in Contrastive Representation Learning with Satellite Imagery [19.93324644519412]
土地被覆の特徴の特定における都市と農村の格差のリスクを考察する。
本稿では,畳み込みニューラルネットワークモデルの多レベル潜在空間を非バイアス化する手法として,コントラッシブラーニングを用いた高密度表現(FairDCL)を提案する。
得られた画像表現は、下流の都市と農村の予測格差を軽減し、現実の衛星画像の最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-11-16T04:59:46Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Urban2Vec: Incorporating Street View Imagery and POIs for Multi-Modal
Urban Neighborhood Embedding [8.396746290518102]
Urban2Vecは、ストリートビューイメージと関心のポイントデータの両方を組み込んだ、教師なしマルチモーダルフレームワークである。
我々は,Urban2Vecがベースラインモデルよりも優れた性能を実現し,下流予測タスクにおける完全教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2020-01-29T21:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。