論文の概要: PSM: Learning Probabilistic Embeddings for Multi-scale Zero-Shot Soundscape Mapping
- arxiv url: http://arxiv.org/abs/2408.07050v1
- Date: Tue, 13 Aug 2024 17:37:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 16:45:31.955058
- Title: PSM: Learning Probabilistic Embeddings for Multi-scale Zero-Shot Soundscape Mapping
- Title(参考訳): PSM:マルチスケールゼロショットサウンドスケープマッピングのための確率的埋め込み学習
- Authors: Subash Khanal, Eric Xing, Srikumar Sastry, Aayush Dhakal, Zhexiao Xiong, Adeel Ahmad, Nathan Jacobs,
- Abstract要約: サウンドスケープは、ある場所で知覚される音響環境によって定義される。
本研究では,地球上の音環境をマッピングする枠組みを提案する。
我々は、マルチスケールの衛星画像で位置を表現し、この画像、音声、テキストの合同表現を学習する。
- 参考スコア(独自算出の注目度): 7.076417856575795
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A soundscape is defined by the acoustic environment a person perceives at a location. In this work, we propose a framework for mapping soundscapes across the Earth. Since soundscapes involve sound distributions that span varying spatial scales, we represent locations with multi-scale satellite imagery and learn a joint representation among this imagery, audio, and text. To capture the inherent uncertainty in the soundscape of a location, we design the representation space to be probabilistic. We also fuse ubiquitous metadata (including geolocation, time, and data source) to enable learning of spatially and temporally dynamic representations of soundscapes. We demonstrate the utility of our framework by creating large-scale soundscape maps integrating both audio and text with temporal control. To facilitate future research on this task, we also introduce a large-scale dataset, GeoSound, containing over $300k$ geotagged audio samples paired with both low- and high-resolution satellite imagery. We demonstrate that our method outperforms the existing state-of-the-art on both GeoSound and the existing SoundingEarth dataset. Our dataset and code is available at https://github.com/mvrl/PSM.
- Abstract(参考訳): サウンドスケープは、ある場所で知覚される音響環境によって定義される。
本研究では,地球上の音環境をマッピングする枠組みを提案する。
音環境は空間スケールの異なる音の分布を含むため、マルチスケールの衛星画像で位置を表現し、この画像、音声、テキストの合同表現を学習する。
位置の音環境に固有の不確かさを捉えるため,確率的な表現空間を設計する。
また、ユビキタスなメタデータ(位置情報、時間、データソースを含む)を融合して、空間的および時間的に変化する音環境の表現を学習する。
音声とテキストを時間的制御と統合した大規模サウンドスケープマップを作成することで,我々のフレームワークの有用性を実証する。
この課題の今後の研究を容易にするために,低解像度・高解像度の衛星画像と組み合わせた3万ドル以上のジオタグ付きオーディオサンプルを含む大規模データセットGeoSoundも導入した。
提案手法は,GeoSoundと既存のSoundingEarthデータセットの両方において,既存の最先端技術よりも優れていることを示す。
私たちのデータセットとコードはhttps://github.com/mvrl/PSM.orgで公開されています。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping [8.545983117985434]
我々は、特定の地理的位置で知覚される最も可能性の高い音を予測することを含む、音の景観マッピングの課題に焦点を当てる。
我々は、最近の最先端モデルを用いて、ジオタグ付き音声を符号化し、音声のテキスト記述と、そのキャプチャ位置のオーバーヘッド画像を作成する。
我々のアプローチは既存のSOTAよりも優れており、画像からオーディオへのリコール@100が0.256から0.450に改善されている。
論文 参考訳(メタデータ) (2023-09-19T14:49:50Z) - Audio-Visual Spatial Integration and Recursive Attention for Robust
Sound Source Localization [13.278494654137138]
人間は、音源を見つけるための空間的手がかりとして、オーディオと視覚の両方のモダリティを利用する。
両モードの空間的手がかりを統合した音声・視覚空間統合ネットワークを提案する。
提案手法はより堅牢な音源定位を実現する。
論文 参考訳(メタデータ) (2023-08-11T11:57:58Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Audio Latent Space Cartography [0.0]
音声画像生成パイプラインを用いた音声潜在空間の可視化について検討する。
これは音声潜在空間の解釈可能性に役立つと我々は信じている。
論文 参考訳(メタデータ) (2022-12-05T21:51:33Z) - SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。
任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文 参考訳(メタデータ) (2022-06-16T17:17:44Z) - Learning Neural Acoustic Fields [110.22937202449025]
音が物理的場面でどのように伝搬するかを暗黙的に表現するニューラル・アコースティック・フィールズ(NAF)を導入する。
シーン内の音響伝搬を線形時間不変系としてモデル化することにより、NAFは全てのエミッタとリスナーの位置ペアを連続的にマッピングすることを学ぶ。
NAFの連続的な性質により、任意の場所でリスナーの空間音響を描画することができ、新しい場所での音の伝搬を予測できることを実証する。
論文 参考訳(メタデータ) (2022-04-04T17:59:37Z) - Unsupervised Learning of Audio Perception for Robotics Applications:
Learning to Project Data to T-SNE/UMAP space [2.8935588665357077]
本論文は,接地構造データにアクセスすることなく,触覚の知覚を構築するための重要なアイデアを基礎にしている。
我々は、古典的な信号処理のアイデアを活用して、高い精度で興味のある音の大量のデータを得る方法を示す。
論文 参考訳(メタデータ) (2020-02-10T20:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。