論文の概要: NeRAF: 3D Scene Infused Neural Radiance and Acoustic Fields
- arxiv url: http://arxiv.org/abs/2405.18213v2
- Date: Mon, 07 Oct 2024 13:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:09:18.447758
- Title: NeRAF: 3D Scene Infused Neural Radiance and Acoustic Fields
- Title(参考訳): NeRAF:3次元拡散型ニューラルラジアンスと音場
- Authors: Amandine Brunetto, Sascha Hornauer, Fabien Moutarde,
- Abstract要約: 本研究では,音場と放射場を共同で学習するNeRAFを提案する。
NeRAFは、新しい視点と空間化された部屋インパルス応答(RIR)の両方を新しい位置で合成する。
我々は、NeRAFがSoundSpacesおよびRAFデータセット上で高品質なオーディオを生成することを実証した。
- 参考スコア(独自算出の注目度): 3.954853544590893
- License:
- Abstract: Sound plays a major role in human perception. Along with vision, it provides essential information for understanding our surroundings. Despite advances in neural implicit representations, learning acoustics that align with visual scenes remains a challenge. We propose NeRAF, a method that jointly learns acoustic and radiance fields. NeRAF synthesizes both novel views and spatialized room impulse responses (RIR) at new positions by conditioning the acoustic field on 3D scene geometric and appearance priors from the radiance field. The generated RIR can be applied to auralize any audio signal. Each modality can be rendered independently and at spatially distinct positions, offering greater versatility. We demonstrate that NeRAF generates high-quality audio on SoundSpaces and RAF datasets, achieving significant performance improvements over prior methods while being more data-efficient. Additionally, NeRAF enhances novel view synthesis of complex scenes trained with sparse data through cross-modal learning. NeRAF is designed as a Nerfstudio module, providing convenient access to realistic audio-visual generation.
- Abstract(参考訳): 音は人間の知覚において大きな役割を果たす。
視覚とともに、周囲を理解するための重要な情報を提供する。
暗黙の表現の進歩にもかかわらず、視覚的なシーンと整合した音響を学ぶことは依然として困難である。
本研究では,音場と放射場を共同で学習するNeRAFを提案する。
NeRAFは3次元シーン形状と放射場からの出現前を条件に、新しい位置における新しいビューと空間化された部屋インパルス応答(RIR)の両方を合成する。
生成されたRIRは、任意のオーディオ信号のオーラル化に利用できる。
それぞれのモダリティは独立に、空間的に異なる位置で表現することができ、より汎用性を提供する。
我々は、NeRAFがSoundSpacesおよびRAFデータセット上で高品質なオーディオを生成することを実証し、よりデータ効率が良く、従来の手法よりも大幅な性能向上を実現した。
さらに、NeRAFは、クロスモーダル学習を通じてスパースデータで訓練された複雑なシーンの新規なビュー合成を強化する。
NeRAFはNerfstudioモジュールとして設計されており、リアルなオーディオ映像生成に便利なアクセスを提供する。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Hearing Anything Anywhere [26.415266601469767]
DiffRIRは,シーンの音響特性を解釈可能なパラメトリックモデルで表現可能なRIRレンダリングフレームワークである。
これにより、任意のソースオーディオを用いて、空間を通して新しい聴覚体験を合成することができる。
我々のモデルは、モノラルなRIRや音楽のレンダリングにおいて、最先端のベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-11T17:56:14Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - Beyond RGB: Scene-Property Synthesis with Neural Radiance Fields [32.200557554874784]
本稿では,暗黙の3次元表現とニューラルレンダリングの最近の進歩を活用し,シーン理解への新たなアプローチを提案する。
ニューラル・レージアンス・フィールド(NeRF)の大成功を生かして,ネRFを用いたシーン・プロパリティ・シンセサイザーを導入する。
セマンティックセグメンテーション,表面正規推定,リシェーディング,キーポイント検出,エッジ検出など,統合されたフレームワーク下でのさまざまなシーン理解タスクへの対処を容易にする。
論文 参考訳(メタデータ) (2022-06-09T17:59:50Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Learning Neural Acoustic Fields [110.22937202449025]
音が物理的場面でどのように伝搬するかを暗黙的に表現するニューラル・アコースティック・フィールズ(NAF)を導入する。
シーン内の音響伝搬を線形時間不変系としてモデル化することにより、NAFは全てのエミッタとリスナーの位置ペアを連続的にマッピングすることを学ぶ。
NAFの連続的な性質により、任意の場所でリスナーの空間音響を描画することができ、新しい場所での音の伝搬を予測できることを実証する。
論文 参考訳(メタデータ) (2022-04-04T17:59:37Z) - BARF: Bundle-Adjusting Neural Radiance Fields [104.97810696435766]
不完全なカメラポーズからNeRFを訓練するためのバンドル調整ニューラルラジアンスフィールド(BARF)を提案します。
BARFは、ニューラルネットワークシーンの表現を効果的に最適化し、大きなカメラのポーズミスを同時に解決する。
これにより、未知のカメラポーズからの映像シーケンスのビュー合成とローカライズが可能になり、視覚ローカライズシステムのための新しい道を開くことができる。
論文 参考訳(メタデータ) (2021-04-13T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。