論文の概要: Sat2Sound: A Unified Framework for Zero-Shot Soundscape Mapping
- arxiv url: http://arxiv.org/abs/2505.13777v1
- Date: Mon, 19 May 2025 23:36:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.573036
- Title: Sat2Sound: A Unified Framework for Zero-Shot Soundscape Mapping
- Title(参考訳): Sat2Sound: ゼロショットサウンドスケープマッピングのための統一フレームワーク
- Authors: Subash Khanal, Srikumar Sastry, Aayush Dhakal, Adeel Ahmad, Nathan Jacobs,
- Abstract要約: 本研究では,地球上の任意の場所における音の分布を予測するためのフレームワークであるSat2Soundを紹介する。
我々のアプローチは、音声、音声キャプション、衛星画像、衛星画像キャプションのコントラスト学習を取り入れている。
本稿では,没入型音響体験を実現する位置ベースサウンドスケープ合成法を提案する。
- 参考スコア(独自算出の注目度): 7.291750095728984
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Sat2Sound, a multimodal representation learning framework for soundscape mapping, designed to predict the distribution of sounds at any location on Earth. Existing methods for this task rely on satellite image and paired geotagged audio samples, which often fail to capture the diversity of sound sources at a given location. To address this limitation, we enhance existing datasets by leveraging a Vision-Language Model (VLM) to generate semantically rich soundscape descriptions for locations depicted in satellite images. Our approach incorporates contrastive learning across audio, audio captions, satellite images, and satellite image captions. We hypothesize that there is a fixed set of soundscape concepts shared across modalities. To this end, we learn a shared codebook of soundscape concepts and represent each sample as a weighted average of these concepts. Sat2Sound achieves state-of-the-art performance in cross-modal retrieval between satellite image and audio on two datasets: GeoSound and SoundingEarth. Additionally, building on Sat2Sound's ability to retrieve detailed soundscape captions, we introduce a novel application: location-based soundscape synthesis, which enables immersive acoustic experiences. Our code and models will be publicly available.
- Abstract(参考訳): 本研究では,地球上の任意の場所における音の分布を予測するために,音像マッピングのための多モーダル表現学習フレームワークSat2Soundを提案する。
このタスクの既存の方法は、衛星画像とジオタグ付きオーディオサンプルに頼っている。
この制限に対処するため、衛星画像に表示された位置について、視覚言語モデル(VLM)を利用して意味的にリッチなサウンドスケープ記述を生成することにより、既存のデータセットを強化する。
我々のアプローチは、音声、音声キャプション、衛星画像、衛星画像キャプションのコントラスト学習を取り入れている。
モーダル性にまたがって共有される音環境概念の固定セットが存在するという仮説を立てる。
この目的のために,音環境概念の共有コードブックを学習し,各サンプルを重み付き平均値として表現する。
Sat2Soundは、GeoSoundとSoundingEarthという2つのデータセット上の衛星画像とオーディオ間の相互モーダル検索において、最先端のパフォーマンスを実現する。
さらに,Sat2Soundの詳細な音像キャプションを検索する能力に基づいて,音像合成という,没入型音響体験を実現する新しいアプリケーションを導入する。
私たちのコードとモデルは公開されます。
関連論文リスト
- PSM: Learning Probabilistic Embeddings for Multi-scale Zero-Shot Soundscape Mapping [7.076417856575795]
サウンドスケープは、ある場所で知覚される音響環境によって定義される。
本研究では,地球上の音環境をマッピングする枠組みを提案する。
我々は、マルチスケールの衛星画像で位置を表現し、この画像、音声、テキストの合同表現を学習する。
論文 参考訳(メタデータ) (2024-08-13T17:37:40Z) - Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping [8.545983117985434]
我々は、特定の地理的位置で知覚される最も可能性の高い音を予測することを含む、音の景観マッピングの課題に焦点を当てる。
我々は、最近の最先端モデルを用いて、ジオタグ付き音声を符号化し、音声のテキスト記述と、そのキャプチャ位置のオーバーヘッド画像を作成する。
我々のアプローチは既存のSOTAよりも優れており、画像からオーディオへのリコール@100が0.256から0.450に改善されている。
論文 参考訳(メタデータ) (2023-09-19T14:49:50Z) - Generating Realistic Images from In-the-wild Sounds [2.531998650341267]
そこで本研究では,Wild 音から画像を生成する新しい手法を提案する。
まず,音声キャプションを用いて音声をテキストに変換する。
第2に,音の豊かな特徴を表現し,その音を可視化するために,音声の注意と文の注意を提案する。
論文 参考訳(メタデータ) (2023-09-05T17:36:40Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。
任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文 参考訳(メタデータ) (2022-06-16T17:17:44Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。