論文の概要: Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping
- arxiv url: http://arxiv.org/abs/2309.10667v1
- Date: Tue, 19 Sep 2023 14:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 14:04:09.719968
- Title: Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping
- Title(参考訳): ゼロショットサウンドスケープマッピングのための3モード埋め込み学習
- Authors: Subash Khanal, Srikumar Sastry, Aayush Dhakal, Nathan Jacobs
- Abstract要約: 我々は、特定の地理的位置で知覚される最も可能性の高い音を予測することを含む、音の景観マッピングの課題に焦点を当てる。
我々は、最近の最先端モデルを用いて、ジオタグ付き音声を符号化し、音声のテキスト記述と、そのキャプチャ位置のオーバーヘッド画像を作成する。
我々のアプローチは既存のSOTAよりも優れており、画像からオーディオへのリコール@100が0.256から0.450に改善されている。
- 参考スコア(独自算出の注目度): 8.545983117985434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We focus on the task of soundscape mapping, which involves predicting the
most probable sounds that could be perceived at a particular geographic
location. We utilise recent state-of-the-art models to encode geotagged audio,
a textual description of the audio, and an overhead image of its capture
location using contrastive pre-training. The end result is a shared embedding
space for the three modalities, which enables the construction of soundscape
maps for any geographic region from textual or audio queries. Using the
SoundingEarth dataset, we find that our approach significantly outperforms the
existing SOTA, with an improvement of image-to-audio Recall@100 from 0.256 to
0.450. Our code is available at https://github.com/mvrl/geoclap.
- Abstract(参考訳): 我々は、特定の地理的な場所で知覚できる最も可能性の高い音を予測できるサウンドスケープマッピングのタスクに焦点を当てている。
本稿では,最新の最先端モデルを用いて,ジオタグ付き音声の符号化,音声のテキスト記述,コントラストプリトレーニングによるキャプチャ位置のオーバーヘッド画像を提案する。
最終結果は3つのモードの共有埋め込み空間であり、テキストや音声のクエリから任意の地理的領域のサウンドスケープマップを構築することができる。
SoundingEarthデータセットを使用することで、既存のSOTAよりも大幅に優れており、画像からオーディオへのリコール@100が0.256から0.450に改善されていることが分かりました。
私たちのコードはhttps://github.com/mvrl/geoclap.orgで利用可能です。
関連論文リスト
- AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文 参考訳(メタデータ) (2023-03-30T16:01:50Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Chat2Map: Efficient Scene Mapping from Multi-Ego Conversations [65.37621891132729]
本研究では,自然会話における参加者のエゴセントリックな音声・視覚的観察において,共有情報を活用することで,これまで見つからなかった3D環境の地図を構築する。
共有シーンマッパーと協調して、カメラを選択的にオンにして空間を効率よくチャートアウトする、オーディオ-視覚深層強化学習手法を提案する。
我々のモデルは従来の最先端マッピング手法よりも優れており、優れたコスト-精度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-01-04T18:47:32Z) - Localizing Visual Sounds the Easy Way [26.828874753756523]
教師なし音声-視覚的音源の定位は,映像中の可視音源の定位化を目的としている。
トレーニング中に正および負の領域を構築することに頼ることなく,EZ-VSLを提案する。
本フレームワークは,Flickr SoundNet と VGG-Sound Source の2つのベンチマークにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-17T13:52:58Z) - Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped
Environments with Moving Sounds [5.002862602915434]
オーディオ視覚ナビゲーションは、視覚と聴覚を組み合わせて、マップされていない環境で音を発する音源にナビゲートする。
そこで本研究では,ノイズや邪魔な音を伴って環境中を移動した音源をキャッチする必要がある動的視覚ナビゲーションベンチマークを提案する。
我々の手法は、音の移動、聴覚のない音、騒々しい環境など、あらゆるタスクにおいて、最先端技術よりも一貫して優れています。
論文 参考訳(メタデータ) (2021-11-29T15:17:46Z) - Localizing Visual Sounds the Hard Way [149.84890978170174]
音を発する物体を含む画像であっても、難しい画像断片を明示的に識別するようにネットワークを訓練します。
提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。
最近導入されたVGG-Soundデータセットの新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを紹介します。
論文 参考訳(メタデータ) (2021-04-06T17:38:18Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。