Fugu-MT 論文翻訳(概要): MESH2IR: Neural Acoustic Impulse Response Generator for Complex 3D Scenes

論文の概要: MESH2IR: Neural Acoustic Impulse Response Generator for Complex 3D Scenes

arxiv url: http://arxiv.org/abs/2205.09248v1
Date: Wed, 18 May 2022 23:50:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-20 14:06:39.241046
Title: MESH2IR: Neural Acoustic Impulse Response Generator for Complex 3D Scenes
Title（参考訳）: MESH2IR:複雑な3次元シーンのためのニューラル音響インパルス応答発生装置
Authors: Anton Ratnarajah, Zhenyu Tang, Rohith Chandrashekar Aralikatti, Dinesh Manocha
Abstract要約: メッシュを用いた屋内3次元シーンに対する音響インパルス応答(IR)を生成するメッシュベースニューラルネットワーク(MESH2IR)を提案する。任意のトポロジ(2K-3M三角形)で入力三角メッシュを処理できる。我々は,MESH2IRから予測される赤外線の音響測定値が,10%未満の誤差で地上の真実と一致していることを示す。
参考スコア（独自算出の注目度）: 56.946057850725545
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a mesh-based neural network (MESH2IR) to generate acoustic impulse responses (IRs) for indoor 3D scenes represented using a mesh. The IRs are used to create a high-quality sound experience in interactive applications and audio processing. Our method can handle input triangular meshes with arbitrary topologies (2K - 3M triangles). We present a novel training technique to train MESH2IR using energy decay relief and highlight its benefits. We also show that training MESH2IR on IRs preprocessed using our proposed technique significantly improves the accuracy of IR generation. We reduce the non-linearity in the mesh space by transforming 3D scene meshes to latent space using a graph convolution network. Our MESH2IR is more than 200 times faster than a geometric acoustic algorithm on a CPU and can generate more than 10,000 IRs per second on an NVIDIA GeForce RTX 2080 Ti GPU for a given furnished indoor 3D scene. The acoustic metrics are used to characterize the acoustic environment. We show that the acoustic metrics of the IRs predicted from our MESH2IR match the ground truth with less than 10% error. We also highlight the benefits of MESH2IR on audio and speech processing applications such as speech dereverberation and speech separation. To the best of our knowledge, ours is the first neural-network-based approach to predict IRs from a given 3D scene mesh in real-time.
Abstract（参考訳）: メッシュを用いた屋内3次元シーンに対する音響インパルス応答(IR)を生成するメッシュベースニューラルネットワーク(MESH2IR)を提案する。 IRはインタラクティブなアプリケーションやオーディオ処理において高品質な音体験を作り出すために使用される。任意のトポロジ(2K - 3M三角形)で入力三角メッシュを処理できる。本稿では,エネルギー崩壊緩和を利用したMESH2IRのトレーニング手法を提案する。また,提案手法を用いて前処理した赤外線に対するMESH2IRのトレーニングは,IR生成の精度を著しく向上させることを示した。 3次元メッシュをグラフ畳み込みネットワークを用いて潜在空間に変換することにより,メッシュ空間の非線形性を低減する。私たちのmesh2irは、cpu上の幾何学的音響アルゴリズムの200倍以上の速度で、所定の屋内3dシーン用にnvidia geforce rtx 2080 ti gpuで毎秒1万個のirsを生成することができます。音響指標は音響環境の特徴付けに使用される。我々は,MESH2IRから予測される赤外線の音響測定値が,10%未満の誤差で真実と一致することを示す。また,音声の残響や音声分離といった音声・音声処理アプリケーションにおけるmesh2irの利点を強調する。私たちの知る限りでは、私たちのアプローチは、与えられた3DシーンメッシュからリアルタイムにIRを予測する、最初のニューラルネットワークベースのアプローチです。

関連論文リスト

ReMiDi: Reconstruction of Microstructure Using a Differentiable Diffusion MRI Simulator [0.602276990341246]
ReMiDiは、微分拡散磁気共鳴イメージング(dMRI)シミュレーターを用いて神経細胞の微細構造を任意の3次元メッシュとして推定する新しい手法である。本稿では、参照信号にマッチするように調整可能な信号をシミュレートする、エンドツーエンドの微分可能なパイプラインを提案する。有限要素メッシュで表される任意の形状の微細構造を再構築する能力を示し,脳白質中の軸索ジオメトリーに着目した。
論文参考訳（メタデータ） (2025-02-04T04:03:08Z)
VR-Splatting: Foveated Radiance Field Rendering via 3D Gaussian Splatting and Neural Points [4.962171160815189]
本稿では,パフォーマンススイートスポットに関する両点描画方向の長所を結合した,新しいハイブリッドアプローチを提案する。焦点のみの場合、我々は小さなピクセルフットプリントのために畳み込みニューラルネットワークでニューラルネットワークを使用し、鋭く詳細な出力を提供する。提案手法は,標準的なVR対応3DGS構成と比較して,シャープネスとディテールが向上することを確認した。
論文参考訳（メタデータ） (2024-10-23T14:54:48Z)
A Refined 3D Gaussian Representation for High-Quality Dynamic Scene Reconstruction [2.022451212187598]
近年,Neural Radiance Fields (NeRF) は3次元の3次元再構成に革命をもたらした。 3D Gaussian Splatting (3D-GS)は、ニューラルネットワークの暗黙の表現から離れ、代わりに、シーンを直接ガウス型の分布を持つ点雲として表現している。本稿では,高品質な動的シーン再構成のための高精細な3次元ガウス表現を提案する。実験の結果,提案手法は3D-GSによるメモリ使用量を大幅に削減しつつ,レンダリング品質と高速化の既存手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-05-28T07:12:22Z)
EM-GANSim: Real-time and Accurate EM Simulation Using Conditional GANs for 3D Indoor Scenes [55.2480439325792]
実時間電磁伝搬のための新しい機械学習手法(EM-GANSim)を提案する。実際には、3D屋内環境のあらゆる場所で数ミリ秒で信号強度を計算することができる。
論文参考訳（メタデータ） (2024-05-27T17:19:02Z)
N-BVH: Neural ray queries with bounding volume hierarchies [51.430495562430565]
3Dコンピュータグラフィックスでは、シーンのメモリ使用量の大部分がポリゴンとテクスチャによるものである。 N-BVHは3次元の任意の光線クエリに応答するように設計されたニューラル圧縮アーキテクチャである。本手法は, 視認性, 深度, 外観特性を忠実に近似する。
論文参考訳（メタデータ） (2024-05-25T13:54:34Z)
Utilizing Machine Learning and 3D Neuroimaging to Predict Hearing Loss: A Comparative Analysis of Dimensionality Reduction and Regression Techniques [0.0]
我々は,脳の灰白質3次元画像における難聴閾値を予測するための機械学習アプローチについて検討した。第1フェーズでは,3次元CNNモデルを用いて,遅延空間への高次元入力を低減した。第2フェーズでは、このモデルを使用して、リッチな機能への入力を削減した。
論文参考訳（メタデータ） (2024-04-30T18:39:41Z)
Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文参考訳（メタデータ） (2023-04-27T23:03:52Z)
Listen2Scene: Interactive material-aware binaural sound propagation for reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文参考訳（メタデータ） (2023-02-02T04:09:23Z)
FAST-RIR: Fast neural diffuse room impulse response generator [81.96114823691343]
本研究では, ニューラルネットワークを用いた高速拡散室インパルス応答生成器(FAST-RIR)について, 所定の音響環境に対して室インパルス応答(RIR)を生成する。我々のFAST-RIRは、平均誤差0.02sで与えられた入力残響時間に対してRIRを生成することができる。提案するバッチサイズ1のFAST-RIRは,CPU上の拡散音響シミュレータ(DAS)の400倍高速であることを示す。
論文参考訳（メタデータ） (2021-10-07T05:21:01Z)
DONeRF: Towards Real-Time Rendering of Neural Radiance Fields using Depth Oracle Networks [6.2444658061424665]
DONeRFは、深度オラクルネットワークを第1ステップとし、局所サンプルシェーディングネットワークを光線蓄積用に設計した二重ネットワークである。我々は1つのGPU上で、レイマーチベースのニューラル表現をインタラクティブなフレームレート(毎秒15フレーム、800x800)でレンダリングした最初の人です。
論文参考訳（メタデータ） (2021-03-04T18:55:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。