論文の概要: AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis
- arxiv url: http://arxiv.org/abs/2302.02088v1
- Date: Sat, 4 Feb 2023 04:17:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 20:24:06.895328
- Title: AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis
- Title(参考訳): AV-NeRF:リアルワールドオーディオ映像合成のためのニューラルネットワーク学習
- Authors: Susan Liang, Chao Huang, Yapeng Tian, Anurag Kumar, Chenliang Xu
- Abstract要約: 本稿では,実世界における新しい映像シーン合成について述べる。
まず,従来の音声伝搬の知識をNeRFに統合した音響認識型音声生成モジュールを提案する。
また,音源に対する視聴方向を表す座標変換モジュールを提案する。
- 参考スコア(独自算出の注目度): 49.62299756133055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human perception of the complex world relies on a comprehensive analysis of
multi-modal signals, and the co-occurrences of audio and video signals provide
humans with rich cues. This paper focuses on novel audio-visual scene synthesis
in the real world. Given a video recording of an audio-visual scene, the task
is to synthesize new videos with spatial audios along arbitrary novel camera
trajectories in that audio-visual scene. Directly using a NeRF-based model for
audio synthesis is insufficient due to its lack of prior knowledge and acoustic
supervision. To tackle the challenges, we first propose an acoustic-aware audio
generation module that integrates our prior knowledge of audio propagation into
NeRF, in which we associate audio generation with the 3D geometry of the visual
environment. In addition, we propose a coordinate transformation module that
expresses a viewing direction relative to the sound source. Such a direction
transformation helps the model learn sound source-centric acoustic fields.
Moreover, we utilize a head-related impulse response function to synthesize
pseudo binaural audio for data augmentation that strengthens training. We
qualitatively and quantitatively demonstrate the advantage of our model on
real-world audio-visual scenes. We refer interested readers to view our video
results for convincing comparisons.
- Abstract(参考訳): 複雑な世界に対する人間の認識は、マルチモーダル信号の包括的な分析に依存しており、オーディオとビデオ信号の共起は、人間に豊かな手がかりを与える。
本稿では,実世界における新しい映像シーン合成について述べる。
オーディオ映像シーンの映像録画を前提として,その映像シーン内の任意のカメラ軌跡に沿って,空間的音声で新しい映像を合成する。
音声合成にNeRFモデルを直接用いることは、事前知識の欠如と音響監督のために不十分である。
この課題に対処するために,我々はまず,従来の音声伝搬の知識をNeRFに統合した音響認識型音声生成モジュールを提案し,そこで音声生成と視覚環境の3次元幾何を関連づける。
また,音源に対する視聴方向を表す座標変換モジュールを提案する。
このような方向変換は、モデルが音源中心の音響場を学ぶのに役立つ。
さらに,頭部関連インパルス応答関数を用いて擬似バイノーラル音声を合成し,トレーニングを強化するデータ拡張を行う。
実世界の映像シーンにおけるモデルの有用性を質的かつ定量的に実証する。
我々は興味のある読者に、説得力のある比較のためにビデオ結果を見るよう勧める。
関連論文リスト
- SOAF: Scene Occlusion-aware Neural Acoustic Field [9.651041527067907]
そこで我々は,Scene Occlusion-aware Acoustic Field (SOAF) と呼ばれる新しい手法を提案する。
提案手法は,距離対応パラメトリック音波伝搬モデルを用いた音場に先行する手法である。
そこで我々は、Fibonacci Sphereを用いて、受信機を中心にした局所音場から特徴を抽出し、新しい視聴のための音声を生成する。
論文 参考訳(メタデータ) (2024-07-02T13:40:56Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。