論文の概要: MESH2IR: Neural Acoustic Impulse Response Generator for Complex 3D
Scenes
- arxiv url: http://arxiv.org/abs/2205.09248v1
- Date: Wed, 18 May 2022 23:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 14:06:39.241046
- Title: MESH2IR: Neural Acoustic Impulse Response Generator for Complex 3D
Scenes
- Title(参考訳): MESH2IR:複雑な3次元シーンのためのニューラル音響インパルス応答発生装置
- Authors: Anton Ratnarajah, Zhenyu Tang, Rohith Chandrashekar Aralikatti, Dinesh
Manocha
- Abstract要約: メッシュを用いた屋内3次元シーンに対する音響インパルス応答(IR)を生成するメッシュベースニューラルネットワーク(MESH2IR)を提案する。
任意のトポロジ(2K-3M三角形)で入力三角メッシュを処理できる。
我々は,MESH2IRから予測される赤外線の音響測定値が,10%未満の誤差で地上の真実と一致していることを示す。
- 参考スコア(独自算出の注目度): 56.946057850725545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a mesh-based neural network (MESH2IR) to generate acoustic impulse
responses (IRs) for indoor 3D scenes represented using a mesh. The IRs are used
to create a high-quality sound experience in interactive applications and audio
processing. Our method can handle input triangular meshes with arbitrary
topologies (2K - 3M triangles). We present a novel training technique to train
MESH2IR using energy decay relief and highlight its benefits. We also show that
training MESH2IR on IRs preprocessed using our proposed technique significantly
improves the accuracy of IR generation. We reduce the non-linearity in the mesh
space by transforming 3D scene meshes to latent space using a graph convolution
network. Our MESH2IR is more than 200 times faster than a geometric acoustic
algorithm on a CPU and can generate more than 10,000 IRs per second on an
NVIDIA GeForce RTX 2080 Ti GPU for a given furnished indoor 3D scene. The
acoustic metrics are used to characterize the acoustic environment. We show
that the acoustic metrics of the IRs predicted from our MESH2IR match the
ground truth with less than 10% error. We also highlight the benefits of
MESH2IR on audio and speech processing applications such as speech
dereverberation and speech separation. To the best of our knowledge, ours is
the first neural-network-based approach to predict IRs from a given 3D scene
mesh in real-time.
- Abstract(参考訳): メッシュを用いた屋内3次元シーンに対する音響インパルス応答(IR)を生成するメッシュベースニューラルネットワーク(MESH2IR)を提案する。
IRはインタラクティブなアプリケーションやオーディオ処理において高品質な音体験を作り出すために使用される。
任意のトポロジ(2K - 3M三角形)で入力三角メッシュを処理できる。
本稿では,エネルギー崩壊緩和を利用したMESH2IRのトレーニング手法を提案する。
また,提案手法を用いて前処理した赤外線に対するMESH2IRのトレーニングは,IR生成の精度を著しく向上させることを示した。
3次元メッシュをグラフ畳み込みネットワークを用いて潜在空間に変換することにより,メッシュ空間の非線形性を低減する。
私たちのmesh2irは、cpu上の幾何学的音響アルゴリズムの200倍以上の速度で、所定の屋内3dシーン用にnvidia geforce rtx 2080 ti gpuで毎秒1万個のirsを生成することができます。
音響指標は音響環境の特徴付けに使用される。
我々は,MESH2IRから予測される赤外線の音響測定値が,10%未満の誤差で真実と一致することを示す。
また,音声の残響や音声分離といった音声・音声処理アプリケーションにおけるmesh2irの利点を強調する。
私たちの知る限りでは、私たちのアプローチは、与えられた3DシーンメッシュからリアルタイムにIRを予測する、最初のニューラルネットワークベースのアプローチです。
関連論文リスト
- A Refined 3D Gaussian Representation for High-Quality Dynamic Scene Reconstruction [2.022451212187598]
近年,Neural Radiance Fields (NeRF) は3次元の3次元再構成に革命をもたらした。
3D Gaussian Splatting (3D-GS)は、ニューラルネットワークの暗黙の表現から離れ、代わりに、シーンを直接ガウス型の分布を持つ点雲として表現している。
本稿では,高品質な動的シーン再構成のための高精細な3次元ガウス表現を提案する。
実験の結果,提案手法は3D-GSによるメモリ使用量を大幅に削減しつつ,レンダリング品質と高速化の既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-28T07:12:22Z) - EM-GANSim: Real-time and Accurate EM Simulation Using Conditional GANs for 3D Indoor Scenes [55.2480439325792]
実時間電磁伝搬のための新しい機械学習手法(EM-GANSim)を提案する。
実際には、3D屋内環境のあらゆる場所で数ミリ秒で信号強度を計算することができる。
論文 参考訳(メタデータ) (2024-05-27T17:19:02Z) - N-BVH: Neural ray queries with bounding volume hierarchies [51.430495562430565]
3Dコンピュータグラフィックスでは、シーンのメモリ使用量の大部分がポリゴンとテクスチャによるものである。
N-BVHは3次元の任意の光線クエリに応答するように設計されたニューラル圧縮アーキテクチャである。
本手法は, 視認性, 深度, 外観特性を忠実に近似する。
論文 参考訳(メタデータ) (2024-05-25T13:54:34Z) - Utilizing Machine Learning and 3D Neuroimaging to Predict Hearing Loss: A Comparative Analysis of Dimensionality Reduction and Regression Techniques [0.0]
我々は,脳の灰白質3次元画像における難聴閾値を予測するための機械学習アプローチについて検討した。
第1フェーズでは,3次元CNNモデルを用いて,遅延空間への高次元入力を低減した。
第2フェーズでは、このモデルを使用して、リッチな機能への入力を削減した。
論文 参考訳(メタデータ) (2024-04-30T18:39:41Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - FAST-RIR: Fast neural diffuse room impulse response generator [81.96114823691343]
本研究では, ニューラルネットワークを用いた高速拡散室インパルス応答生成器(FAST-RIR)について, 所定の音響環境に対して室インパルス応答(RIR)を生成する。
我々のFAST-RIRは、平均誤差0.02sで与えられた入力残響時間に対してRIRを生成することができる。
提案するバッチサイズ1のFAST-RIRは,CPU上の拡散音響シミュレータ(DAS)の400倍高速であることを示す。
論文 参考訳(メタデータ) (2021-10-07T05:21:01Z) - DONeRF: Towards Real-Time Rendering of Neural Radiance Fields using
Depth Oracle Networks [6.2444658061424665]
DONeRFは、深度オラクルネットワークを第1ステップとし、局所サンプルシェーディングネットワークを光線蓄積用に設計した二重ネットワークである。
我々は1つのGPU上で、レイマーチベースのニューラル表現をインタラクティブなフレームレート(毎秒15フレーム、800x800)でレンダリングした最初の人です。
論文 参考訳(メタデータ) (2021-03-04T18:55:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。