論文の概要: SPEAR: Receiver-to-Receiver Acoustic Neural Warping Field
- arxiv url: http://arxiv.org/abs/2406.11006v1
- Date: Sun, 16 Jun 2024 16:40:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 19:32:56.965980
- Title: SPEAR: Receiver-to-Receiver Acoustic Neural Warping Field
- Title(参考訳): SPEAR:受信者から受信者への音響ニューラルワープフィールド
- Authors: Yuhang He, Shitong Xu, Jia-Xing Zhong, Sangyun Shin, Niki Trigoni, Andrew Markham,
- Abstract要約: SPEARは、空間音響効果予測のための連続受信機から受信機への音響ニューラルワーピングフィールドである。
合成, フォトリアリスティック, 実世界の両方のデータセットにSPEARの優位性を示す。
- 参考スコア(独自算出の注目度): 39.19609821736598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SPEAR, a continuous receiver-to-receiver acoustic neural warping field for spatial acoustic effects prediction in an acoustic 3D space with a single stationary audio source. Unlike traditional source-to-receiver modelling methods that require prior space acoustic properties knowledge to rigorously model audio propagation from source to receiver, we propose to predict by warping the spatial acoustic effects from one reference receiver position to another target receiver position, so that the warped audio essentially accommodates all spatial acoustic effects belonging to the target position. SPEAR can be trained in a data much more readily accessible manner, in which we simply ask two robots to independently record spatial audio at different positions. We further theoretically prove the universal existence of the warping field if and only if one audio source presents. Three physical principles are incorporated to guide SPEAR network design, leading to the learned warping field physically meaningful. We demonstrate SPEAR superiority on both synthetic, photo-realistic and real-world dataset, showing the huge potential of SPEAR to various down-stream robotic tasks.
- Abstract(参考訳): 本研究では,1つの静止音源を持つ音響3次元空間における空間音響効果予測のための連続受信-受信型音響ニューラルワーピング場SPEARを提案する。
音源から受信者への音響伝搬を厳格にモデル化するために、従来の空間音響特性の知識を必要とするソース・ツー・レシーバ・モデリング法とは違って、1つの参照受信者位置から他のターゲット受信者位置への空間音響効果をワープし、そのターゲット位置に属する全ての空間音響効果を本質的に許容するように予測することを提案する。
SPEARは、より容易にアクセス可能なデータで訓練できるので、2つのロボットに異なる位置の空間音声を独立して記録するように頼みます。
さらに、1つの音源が存在する場合に限って、ワープフィールドの普遍的存在を理論的に証明する。
SPEARネットワーク設計をガイドするために3つの物理原理が組み込まれ、学習されたワープ分野が物理的に意味を持つようになる。
合成, フォトリアリスティック, 実世界の両方のデータセット上でSPEARの優位性を実証し, 様々な下流ロボットタスクに対するSPEARの潜在可能性を示した。
関連論文リスト
- SOAF: Scene Occlusion-aware Neural Acoustic Field [9.651041527067907]
そこで我々は,Scene Occlusion-aware Acoustic Field (SOAF) と呼ばれる新しい手法を提案する。
提案手法は,距離対応パラメトリック音波伝搬モデルを用いた音場に先行する手法である。
そこで我々は、Fibonacci Sphereを用いて、受信機を中心にした局所音場から特徴を抽出し、新しい視聴のための音声を生成する。
論文 参考訳(メタデータ) (2024-07-02T13:40:56Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - BAT: Learning to Reason about Spatial Sounds with Large Language Models [45.757161909533714]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-02T17:34:53Z) - RIR-SF: Room Impulse Response Based Spatial Feature for Target Speech Recognition in Multi-Channel Multi-Speaker Scenarios [36.50731790624643]
室内インパルス応答(RIR)に基づく空間的特徴を持つRIR-SFについて紹介する。
RIR-SFは従来の3次元空間特性よりも優れており、理論的および経験的性能が優れている。
また、RIR-SFのための最適化されたオールニューラルマルチチャネルASRフレームワークを提案し、マルチチャネル設定におけるターゲット話者ASRに対するCERの相対的な21.3%削減を実現した。
論文 参考訳(メタデータ) (2023-10-31T20:42:08Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Implicit Neural Spatial Filtering for Multichannel Source Separation in
the Waveform Domain [131.74762114632404]
モデルはエンドツーエンドで訓練され、空間処理を暗黙的に実行する。
提案したモデルを実世界のデータセット上で評価し,そのモデルがオラクルビームフォーマの性能と一致することを示す。
論文 参考訳(メタデータ) (2022-06-30T17:13:01Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。