論文の概要: Scene2BIR: Material-aware learning-based binaural impulse response
generator for reconstructed real-world 3D scenes
- arxiv url: http://arxiv.org/abs/2302.02809v1
- Date: Thu, 2 Feb 2023 04:09:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 16:27:49.177208
- Title: Scene2BIR: Material-aware learning-based binaural impulse response
generator for reconstructed real-world 3D scenes
- Title(参考訳): scene2bir: 教材学習に基づく実世界3次元シーン再生のためのバイノーラルインパルス応答生成
- Authors: Anton Jeran Ratnarajah, Dinesh Manocha
- Abstract要約: 実世界のモデルに対して, 実時間で可塑性音を生成するために, エンドツーエンドのインパルス応答生成器(BIR)を提案する。
本手法では, ニューラルネットワークを用いた新しいBIRジェネレータ (Scene2BIR) を再構成3次元モデルに適用する。
提案手法の精度を実世界のBIRとインタラクティブな幾何学的音響伝搬アルゴリズムを用いて評価した。
- 参考スコア(独自算出の注目度): 69.03289331433874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an end-to-end binaural impulse response generator (BIR) to
generate plausible sounds in real-time for real-world models. Our approach uses
a novel neural-network-based BIR generator (Scene2BIR) for the reconstructed 3D
model. We propose a graph neural network that uses both the material and the
topology information of the 3D scenes and generates a scene latent vector.
Moreover, we use a conditional generative adversarial network (CGAN) to
generate BIRs from the scene latent vector. Our network is able to handle holes
or other artifacts in the reconstructed 3D mesh model. We present an efficient
cost function to the generator network to incorporate spatial audio effects.
Given the source and the listener position, our approach can generate a BIR in
0.1 milliseconds on an NVIDIA GeForce RTX 2080 Ti GPU and can easily handle
multiple sources. We have evaluated the accuracy of our approach with
real-world captured BIRs and an interactive geometric sound propagation
algorithm.
- Abstract(参考訳): 実世界のモデルに対して,両耳間インパルス応答生成器 (BIR) をリアルタイムに生成する。
本手法では, ニューラルネットワークを用いた新しいBIRジェネレータ (Scene2BIR) を再構成3次元モデルに適用する。
本稿では,3次元シーンの材料情報とトポロジー情報の両方を用いて,シーン潜在ベクトルを生成するグラフニューラルネットワークを提案する。
さらに,条件付き生成逆数ネットワーク(CGAN)を用いて,シーン潜時ベクトルからBIRを生成する。
我々のネットワークは、再構成された3Dメッシュモデルでホールや他のアーティファクトを処理できる。
空間音響効果を組み込むために,ジェネレータネットワークに効率的なコスト関数を提案する。
ソースとリスナの位置を考慮すれば、NVIDIA GeForce RTX 2080 Ti GPU上で0.1ミリ秒でBIRを生成し、複数のソースを容易に処理できる。
提案手法の精度を実世界のBIRとインタラクティブな幾何学的音響伝搬アルゴリズムを用いて評価した。
関連論文リスト
- Novel-View Acoustic Synthesis from 3D Reconstructed Rooms [18.49261985372842]
そこで本研究では,視覚障害者のための視覚障害者向け音声録音と3Dシーン情報を組み合わせることの利点について検討する。
音源の定位, 分離, 残響として, 新規な音像合成の課題を明らかにした。
3次元再構成された部屋から引き起こされた室間インパルス応答(RIR)を組み込むことで、同じネットワークがこれらの課題に共同で取り組むことができることを示す。
論文 参考訳(メタデータ) (2023-10-23T17:34:31Z) - An Integrated Algorithm for Robust and Imperceptible Audio Adversarial
Examples [2.2866551516539726]
実効性のある音声ファイルが生成され、認識性や頑健性に関して微調整される。
本稿では,心理音響モデルと室内インパルス応答(RIR)を用いた統合アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-05T06:59:09Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。
任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文 参考訳(メタデータ) (2022-06-16T17:17:44Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Points2Sound: From mono to binaural audio using 3D point cloud scenes [0.0]
我々は3Dポイントクラウドシーンを用いたモノラルオーディオからバージョンを生成するマルチモーダルディープラーニングモデルであるPoints2Soundを提案する。
その結果,3次元視覚情報により,合成作業のための多モード深層学習モデルを導出できることが示唆された。
論文 参考訳(メタデータ) (2021-04-26T10:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。