論文の概要: Hearing Anything Anywhere
- arxiv url: http://arxiv.org/abs/2406.07532v1
- Date: Tue, 11 Jun 2024 17:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 14:26:16.213685
- Title: Hearing Anything Anywhere
- Title(参考訳): 耳に耳を傾けること
- Authors: Mason Wang, Ryosuke Sawata, Samuel Clarke, Ruohan Gao, Shangzhe Wu, Jiajun Wu,
- Abstract要約: DiffRIRは,シーンの音響特性を解釈可能なパラメトリックモデルで表現可能なRIRレンダリングフレームワークである。
これにより、任意のソースオーディオを用いて、空間を通して新しい聴覚体験を合成することができる。
我々のモデルは、モノラルなRIRや音楽のレンダリングにおいて、最先端のベースラインよりも優れています。
- 参考スコア(独自算出の注目度): 26.415266601469767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen immense progress in 3D computer vision and computer graphics, with emerging tools that can virtualize real-world 3D environments for numerous Mixed Reality (XR) applications. However, alongside immersive visual experiences, immersive auditory experiences are equally vital to our holistic perception of an environment. In this paper, we aim to reconstruct the spatial acoustic characteristics of an arbitrary environment given only a sparse set of (roughly 12) room impulse response (RIR) recordings and a planar reconstruction of the scene, a setup that is easily achievable by ordinary users. To this end, we introduce DiffRIR, a differentiable RIR rendering framework with interpretable parametric models of salient acoustic features of the scene, including sound source directivity and surface reflectivity. This allows us to synthesize novel auditory experiences through the space with any source audio. To evaluate our method, we collect a dataset of RIR recordings and music in four diverse, real environments. We show that our model outperforms state-ofthe-art baselines on rendering monaural and binaural RIRs and music at unseen locations, and learns physically interpretable parameters characterizing acoustic properties of the sound source and surfaces in the scene.
- Abstract(参考訳): 近年、多くのMixed Reality (XR)アプリケーションのために現実世界の3D環境を仮想化する新しいツールによって、3Dコンピュータビジョンとコンピュータグラフィックスが大幅に進歩している。
しかし、没入型視覚体験と並んで、没入型聴覚体験は、環境に対する総合的な認識に等しく不可欠である。
本稿では, 空間音響特性を再現することを目的としており, 空間音響特性は, 空間インパルス応答 (RIR) と平面再構成のみであり, 一般ユーザにとって容易に実現可能な構成である。
そこで本研究では,音源指向性や表面反射率など,シーンの健全な音響特性を解釈可能なパラメトリックモデルで表現可能なRIRレンダリングフレームワークであるDiffRIRを紹介する。
これにより、任意のソースオーディオを用いて、空間を通して新しい聴覚体験を合成することができる。
提案手法を評価するため,RIR録音と音楽のデータセットを4つの多様な実環境において収集した。
本研究では, モノラル・バイノーラルなRIRや音楽のレンダリングにおいて, 映像中の音源や表面の音響特性を特徴付ける物理的に解釈可能なパラメータを学習し, 最先端のベースラインよりも優れていることを示す。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - NeRAF: 3D Scene Infused Neural Radiance and Acoustic Fields [3.954853544590893]
本研究では,音場と放射場を共同で学習するNeRAFを提案する。
NeRAFは、新しい視点と空間化された部屋インパルス応答(RIR)の両方を新しい位置で合成する。
我々は、NeRAFがSoundSpacesおよびRAFデータセット上で高品質なオーディオを生成することを実証した。
論文 参考訳(メタデータ) (2024-05-28T14:17:41Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。
任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文 参考訳(メタデータ) (2022-06-16T17:17:44Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Image2Reverb: Cross-Modal Reverb Impulse Response Synthesis [0.3587367153279349]
音響環境の単一画像から可聴音インパルス応答を生成するために、エンドツーエンドのニューラルネットワークアーキテクチャを使用します。
多様な設定やフォーマットからもっともらしいインパルス応答を生成することで、我々のアプローチを実証する。
論文 参考訳(メタデータ) (2021-03-26T01:25:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。