論文の概要: MESH2IR: Neural Acoustic Impulse Response Generator for Complex 3D
Scenes
- arxiv url: http://arxiv.org/abs/2205.09248v1
- Date: Wed, 18 May 2022 23:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 14:06:39.241046
- Title: MESH2IR: Neural Acoustic Impulse Response Generator for Complex 3D
Scenes
- Title(参考訳): MESH2IR:複雑な3次元シーンのためのニューラル音響インパルス応答発生装置
- Authors: Anton Ratnarajah, Zhenyu Tang, Rohith Chandrashekar Aralikatti, Dinesh
Manocha
- Abstract要約: メッシュを用いた屋内3次元シーンに対する音響インパルス応答(IR)を生成するメッシュベースニューラルネットワーク(MESH2IR)を提案する。
任意のトポロジ(2K-3M三角形)で入力三角メッシュを処理できる。
我々は,MESH2IRから予測される赤外線の音響測定値が,10%未満の誤差で地上の真実と一致していることを示す。
- 参考スコア(独自算出の注目度): 56.946057850725545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a mesh-based neural network (MESH2IR) to generate acoustic impulse
responses (IRs) for indoor 3D scenes represented using a mesh. The IRs are used
to create a high-quality sound experience in interactive applications and audio
processing. Our method can handle input triangular meshes with arbitrary
topologies (2K - 3M triangles). We present a novel training technique to train
MESH2IR using energy decay relief and highlight its benefits. We also show that
training MESH2IR on IRs preprocessed using our proposed technique significantly
improves the accuracy of IR generation. We reduce the non-linearity in the mesh
space by transforming 3D scene meshes to latent space using a graph convolution
network. Our MESH2IR is more than 200 times faster than a geometric acoustic
algorithm on a CPU and can generate more than 10,000 IRs per second on an
NVIDIA GeForce RTX 2080 Ti GPU for a given furnished indoor 3D scene. The
acoustic metrics are used to characterize the acoustic environment. We show
that the acoustic metrics of the IRs predicted from our MESH2IR match the
ground truth with less than 10% error. We also highlight the benefits of
MESH2IR on audio and speech processing applications such as speech
dereverberation and speech separation. To the best of our knowledge, ours is
the first neural-network-based approach to predict IRs from a given 3D scene
mesh in real-time.
- Abstract(参考訳): メッシュを用いた屋内3次元シーンに対する音響インパルス応答(IR)を生成するメッシュベースニューラルネットワーク(MESH2IR)を提案する。
IRはインタラクティブなアプリケーションやオーディオ処理において高品質な音体験を作り出すために使用される。
任意のトポロジ(2K - 3M三角形)で入力三角メッシュを処理できる。
本稿では,エネルギー崩壊緩和を利用したMESH2IRのトレーニング手法を提案する。
また,提案手法を用いて前処理した赤外線に対するMESH2IRのトレーニングは,IR生成の精度を著しく向上させることを示した。
3次元メッシュをグラフ畳み込みネットワークを用いて潜在空間に変換することにより,メッシュ空間の非線形性を低減する。
私たちのmesh2irは、cpu上の幾何学的音響アルゴリズムの200倍以上の速度で、所定の屋内3dシーン用にnvidia geforce rtx 2080 ti gpuで毎秒1万個のirsを生成することができます。
音響指標は音響環境の特徴付けに使用される。
我々は,MESH2IRから予測される赤外線の音響測定値が,10%未満の誤差で真実と一致することを示す。
また,音声の残響や音声分離といった音声・音声処理アプリケーションにおけるmesh2irの利点を強調する。
私たちの知る限りでは、私たちのアプローチは、与えられた3DシーンメッシュからリアルタイムにIRを予測する、最初のニューラルネットワークベースのアプローチです。
関連論文リスト
- AV-RIR: Audio-Visual Room Impulse Response Estimation [53.07303460914328]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - FAST-RIR: Fast neural diffuse room impulse response generator [81.96114823691343]
本研究では, ニューラルネットワークを用いた高速拡散室インパルス応答生成器(FAST-RIR)について, 所定の音響環境に対して室インパルス応答(RIR)を生成する。
我々のFAST-RIRは、平均誤差0.02sで与えられた入力残響時間に対してRIRを生成することができる。
提案するバッチサイズ1のFAST-RIRは,CPU上の拡散音響シミュレータ(DAS)の400倍高速であることを示す。
論文 参考訳(メタデータ) (2021-10-07T05:21:01Z) - Light Field Networks: Neural Scene Representations with
Single-Evaluation Rendering [60.02806355570514]
2次元観察から3Dシーンの表現を推定することは、コンピュータグラフィックス、コンピュータビジョン、人工知能の基本的な問題である。
そこで我々は,360度4次元光場における基礎となる3次元シーンの形状と外観の両面を表現した新しいニューラルシーン表現,光場ネットワーク(LFN)を提案する。
LFNからレイをレンダリングするには*single*ネットワークの評価しか必要としない。
論文 参考訳(メタデータ) (2021-06-04T17:54:49Z) - DONeRF: Towards Real-Time Rendering of Neural Radiance Fields using
Depth Oracle Networks [6.2444658061424665]
DONeRFは、深度オラクルネットワークを第1ステップとし、局所サンプルシェーディングネットワークを光線蓄積用に設計した二重ネットワークである。
我々は1つのGPU上で、レイマーチベースのニューラル表現をインタラクティブなフレームレート(毎秒15フレーム、800x800)でレンダリングした最初の人です。
論文 参考訳(メタデータ) (2021-03-04T18:55:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。