論文の概要: Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping
- arxiv url: http://arxiv.org/abs/2309.10667v1
- Date: Tue, 19 Sep 2023 14:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 14:04:09.719968
- Title: Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping
- Title(参考訳): ゼロショットサウンドスケープマッピングのための3モード埋め込み学習
- Authors: Subash Khanal, Srikumar Sastry, Aayush Dhakal, Nathan Jacobs
- Abstract要約: 我々は、特定の地理的位置で知覚される最も可能性の高い音を予測することを含む、音の景観マッピングの課題に焦点を当てる。
我々は、最近の最先端モデルを用いて、ジオタグ付き音声を符号化し、音声のテキスト記述と、そのキャプチャ位置のオーバーヘッド画像を作成する。
我々のアプローチは既存のSOTAよりも優れており、画像からオーディオへのリコール@100が0.256から0.450に改善されている。
- 参考スコア(独自算出の注目度): 8.545983117985434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We focus on the task of soundscape mapping, which involves predicting the
most probable sounds that could be perceived at a particular geographic
location. We utilise recent state-of-the-art models to encode geotagged audio,
a textual description of the audio, and an overhead image of its capture
location using contrastive pre-training. The end result is a shared embedding
space for the three modalities, which enables the construction of soundscape
maps for any geographic region from textual or audio queries. Using the
SoundingEarth dataset, we find that our approach significantly outperforms the
existing SOTA, with an improvement of image-to-audio Recall@100 from 0.256 to
0.450. Our code is available at https://github.com/mvrl/geoclap.
- Abstract(参考訳): 我々は、特定の地理的な場所で知覚できる最も可能性の高い音を予測できるサウンドスケープマッピングのタスクに焦点を当てている。
本稿では,最新の最先端モデルを用いて,ジオタグ付き音声の符号化,音声のテキスト記述,コントラストプリトレーニングによるキャプチャ位置のオーバーヘッド画像を提案する。
最終結果は3つのモードの共有埋め込み空間であり、テキストや音声のクエリから任意の地理的領域のサウンドスケープマップを構築することができる。
SoundingEarthデータセットを使用することで、既存のSOTAよりも大幅に優れており、画像からオーディオへのリコール@100が0.256から0.450に改善されていることが分かりました。
私たちのコードはhttps://github.com/mvrl/geoclap.orgで利用可能です。
関連論文リスト
- PSM: Learning Probabilistic Embeddings for Multi-scale Zero-Shot Soundscape Mapping [7.076417856575795]
サウンドスケープは、ある場所で知覚される音響環境によって定義される。
本研究では,地球上の音環境をマッピングする枠組みを提案する。
我々は、マルチスケールの衛星画像で位置を表現し、この画像、音声、テキストの合同表現を学習する。
論文 参考訳(メタデータ) (2024-08-13T17:37:40Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文 参考訳(メタデータ) (2023-03-30T16:01:50Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Chat2Map: Efficient Scene Mapping from Multi-Ego Conversations [65.37621891132729]
本研究では,自然会話における参加者のエゴセントリックな音声・視覚的観察において,共有情報を活用することで,これまで見つからなかった3D環境の地図を構築する。
共有シーンマッパーと協調して、カメラを選択的にオンにして空間を効率よくチャートアウトする、オーディオ-視覚深層強化学習手法を提案する。
我々のモデルは従来の最先端マッピング手法よりも優れており、優れたコスト-精度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-01-04T18:47:32Z) - Localizing Visual Sounds the Easy Way [26.828874753756523]
教師なし音声-視覚的音源の定位は,映像中の可視音源の定位化を目的としている。
トレーニング中に正および負の領域を構築することに頼ることなく,EZ-VSLを提案する。
本フレームワークは,Flickr SoundNet と VGG-Sound Source の2つのベンチマークにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-17T13:52:58Z) - Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped
Environments with Moving Sounds [5.002862602915434]
オーディオ視覚ナビゲーションは、視覚と聴覚を組み合わせて、マップされていない環境で音を発する音源にナビゲートする。
そこで本研究では,ノイズや邪魔な音を伴って環境中を移動した音源をキャッチする必要がある動的視覚ナビゲーションベンチマークを提案する。
我々の手法は、音の移動、聴覚のない音、騒々しい環境など、あらゆるタスクにおいて、最先端技術よりも一貫して優れています。
論文 参考訳(メタデータ) (2021-11-29T15:17:46Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。