論文の概要: Listen2Scene: Interactive material-aware binaural soundbpropagation for
reconstructed 3D scenes
- arxiv url: http://arxiv.org/abs/2302.02809v2
- Date: Tue, 25 Apr 2023 15:37:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 03:16:11.922492
- Title: Listen2Scene: Interactive material-aware binaural soundbpropagation for
reconstructed 3D scenes
- Title(参考訳): リスナー2Scene:インタラクティブな素材を意識したバイノーラルサウンドプロパゲーション
- Authors: Anton Ratnarajah, Dinesh Manocha
- Abstract要約: 仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
- 参考スコア(独自算出の注目度): 69.03289331433874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an end-to-end binaural audio rendering approach (Listen2Scene) for
virtual reality (VR) and augmented reality (AR) applications. We propose a
novel neural-network-based binaural sound propagation method to generate
acoustic effects for 3D models of real environments. Any clean audio or dry
audio can be convolved with the generated acoustic effects to render audio
corresponding to the real environment. We propose a graph neural network that
uses both the material and the topology information of the 3D scenes and
generates a scene latent vector. Moreover, we use a conditional generative
adversarial network (CGAN) to generate acoustic effects from the scene latent
vector. Our network is able to handle holes or other artifacts in the
reconstructed 3D mesh model. We present an efficient cost function to the
generator network to incorporate spatial audio effects. Given the source and
the listener position, our learning-based binaural sound propagation approach
can generate an acoustic effect in 0.1 milliseconds on an NVIDIA GeForce RTX
2080 Ti GPU and can easily handle multiple sources. We have evaluated the
accuracy of our approach with binaural acoustic effects generated using an
interactive geometric sound propagation algorithm and captured real acoustic
effects. We also performed a perceptual evaluation and observed that the audio
rendered by our approach is more plausible as compared to audio rendered using
prior learning-based sound propagation algorithms.
- Abstract(参考訳): 本稿では、仮想現実(vr)および拡張現実(ar)アプリケーションのためのエンドツーエンドバイノーラルオーディオレンダリングアプローチ(listen2scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するニューラルネットを用いたバイノーラル音響伝搬法を提案する。
クリーンオーディオやドライオーディオは、生成された音響効果と畳み込み、実際の環境に対応するオーディオをレンダリングすることができる。
本稿では,3次元シーンの材料情報とトポロジー情報の両方を用いて,シーン潜在ベクトルを生成するグラフニューラルネットワークを提案する。
さらに,現場潜伏ベクトルから音響効果を生成するために,条件付き生成対向ネットワーク(CGAN)を用いる。
我々のネットワークは、再構成された3Dメッシュモデルでホールや他のアーティファクトを処理できる。
空間音響効果を組み込むために,ジェネレータネットワークに効率的なコスト関数を提案する。
ソースとリスナーの位置を考えると、学習に基づくバイノーラル音伝搬アプローチは、nvidia geforce rtx 2080 ti gpu上で0.1ミリ秒で音響効果を生成し、複数のソースを容易に処理できる。
本研究では,インタラクティブな幾何音響伝搬アルゴリズムを用いて,バイノーラル音響効果を用いたアプローチの精度を評価し,実際の音響効果を捉えた。
また, 従来の学習に基づく音声伝搬アルゴリズムを用いた音声に比べて, 提案手法により得られた音声が, より妥当であることが確認された。
関連論文リスト
- SOAF: Scene Occlusion-aware Neural Acoustic Field [9.651041527067907]
そこで我々は,Scene Occlusion-aware Acoustic Field (SOAF) と呼ばれる新しい手法を提案する。
提案手法は,距離対応パラメトリック音波伝搬モデルを用いた音場に先行する手法である。
そこで我々は、Fibonacci Sphereを用いて、受信機を中心にした局所音場から特徴を抽出し、新しい視聴のための音声を生成する。
論文 参考訳(メタデータ) (2024-07-02T13:40:56Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Novel-View Acoustic Synthesis from 3D Reconstructed Rooms [17.72902700567848]
そこで本研究では,視覚障害者のための視覚障害者向け音声録音と3Dシーン情報を組み合わせることの利点について検討する。
音源の定位, 分離, 残響として, 新規な音像合成の課題を明らかにした。
3次元再構成された部屋から引き起こされた室間インパルス応答(RIR)を組み込むことで、同じネットワークがこれらの課題に共同で取り組むことができることを示す。
論文 参考訳(メタデータ) (2023-10-23T17:34:31Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Points2Sound: From mono to binaural audio using 3D point cloud scenes [0.0]
我々は3Dポイントクラウドシーンを用いたモノラルオーディオからバージョンを生成するマルチモーダルディープラーニングモデルであるPoints2Soundを提案する。
その結果,3次元視覚情報により,合成作業のための多モード深層学習モデルを導出できることが示唆された。
論文 参考訳(メタデータ) (2021-04-26T10:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。