論文の概要: Audio Simulation for Sound Source Localization in Virtual Evironment
- arxiv url: http://arxiv.org/abs/2404.01611v1
- Date: Tue, 2 Apr 2024 03:18:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 18:08:16.136538
- Title: Audio Simulation for Sound Source Localization in Virtual Evironment
- Title(参考訳): 仮想環境における音源定位のための音響シミュレーション
- Authors: Yi Di Yuan, Swee Liang Wong, Jonathan Pan,
- Abstract要約: 信号遮断環境における非視線局所化は、難しいが関連する問題である。
本研究では,物理基底音の伝搬シミュレーションと機械学習手法を利用して,仮想環境内の特定の場所に音源を配置することを目的とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Non-line-of-sight localization in signal-deprived environments is a challenging yet pertinent problem. Acoustic methods in such predominantly indoor scenarios encounter difficulty due to the reverberant nature. In this study, we aim to locate sound sources to specific locations within a virtual environment by leveraging physically grounded sound propagation simulations and machine learning methods. This process attempts to overcome the issue of data insufficiency to localize sound sources to their location of occurrence especially in post-event localization. We achieve 0.786+/- 0.0136 F1-score using an audio transformer spectrogram approach.
- Abstract(参考訳): 信号遮断環境における非視線局所化は、難しいが関連する問題である。
このような屋内シナリオにおける音響的手法は、残響性により困難に直面する。
本研究では,物理基底音の伝搬シミュレーションと機械学習手法を利用して,仮想環境内の特定の場所に音源を配置することを目的とする。
このプロセスは、特にイベント後の局所化において、音源をその発生位置にローカライズするデータ不足の問題を克服しようとするものである。
オーディオ・トランスフォーマー・スペクトログラム・アプローチを用いて0.786+/- 0.0136 F1スコアを実現する。
関連論文リスト
- Sound event localization and classification using WASN in Outdoor Environment [2.234738672139924]
音声イベントのローカライゼーションと分類の方法は、通常は単一のマイクロホンアレイに依存する。
音源の位置とクラスを推定するために,複数の特徴と注意機構を用いた深層学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T11:44:14Z) - Attention-Driven Multichannel Speech Enhancement in Moving Sound Source
Scenarios [11.811571392419324]
音声強調アルゴリズムは典型的に静止音源を仮定するが、これは現実との共通のミスマッチであり、現実のシナリオではその性能を制限している。
本稿では,動的設定のための注意駆動型空間フィルタリング技術について述べる。
論文 参考訳(メタデータ) (2023-12-17T16:12:35Z) - Sound Source Localization is All about Cross-Modal Alignment [53.957081836232206]
モーダルな意味理解は、真の音源定位には不可欠である。
音響と視覚の相互作用をよりよく学習するために,音源定位を伴う共同作業を提案する。
本手法は,音源定位法とクロスモーダル検索法の両方において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-19T16:04:50Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Visual Sound Localization in the Wild by Cross-Modal Interference
Erasing [90.21476231683008]
現実のシナリオでは、オーディオは通常、オフスクリーンサウンドとバックグラウンドノイズによって汚染される。
本研究では,音声-視覚的音源定位問題に対処する干渉消去(IEr)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-13T21:06:19Z) - A Deep Reinforcement Learning Approach for Audio-based Navigation and
Audio Source Localization in Multi-speaker Environments [1.0527821704930371]
本研究では,3次元環境をナビゲートし,人間の音声源の位置を推定する問題に対して,深層強化学習を適用した。
我々はUnityゲームエンジンを用いて2つの仮想環境を作成し、その1つはオーディオベースのナビゲーション問題を示し、もう1つはオーディオソースのローカライゼーション問題を示す。
また、PPOオンライン強化学習アルゴリズムに基づく自律エージェントを作成し、これらの環境を解決するためのトレーニングを試みる。
論文 参考訳(メタデータ) (2021-10-25T10:18:34Z) - A Review of Sound Source Localization with Deep Learning Methods [71.18444724397486]
本稿では,単音源および複数音源の音源定位のための深層学習手法について概説する。
この文脈におけるニューラルネットワークを用いた局所化文献の網羅的なトポグラフィーを提供する。
文献レビューを要約したテーブルをレビューの最後に提供し、所定の対象特性のセットでメソッドを素早く検索する。
論文 参考訳(メタデータ) (2021-09-08T07:25:39Z) - AcousticFusion: Fusing Sound Source Localization to Visual SLAM in
Dynamic Environments [19.413143126734383]
音源方向をRGB-D画像に融合する新しい音声-視覚融合手法を提案する。
提案手法は、非常に小さな計算資源を用いて、非常に安定した自己ローカライゼーション結果を得る。
論文 参考訳(メタデータ) (2021-08-03T02:10:26Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Dynamic Layer Customization for Noise Robust Speech Emotion Recognition
in Heterogeneous Condition Training [16.807298318504156]
ノイズ条件毎に,サンプルを特殊特徴エンコーダに動的にルーティングすることで,性能を向上できることを示す。
時間的順序付けを動的にルーティングすることで,これらの改善をマルチモーダル設定に拡張する。
論文 参考訳(メタデータ) (2020-10-21T18:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。