Fugu-MT 論文翻訳(概要): AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis

論文の概要: AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis

arxiv url: http://arxiv.org/abs/2406.08920v1
Date: Thu, 13 Jun 2024 08:34:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 18:44:22.549464
Title: AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis
Title（参考訳）: AV-GS:新しい視点音響合成に先立つ学習教材と幾何学
Authors: Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu,
Abstract要約: ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。 AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
参考スコア（独自算出の注目度）: 62.33446681243413
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Novel view acoustic synthesis (NVAS) aims to render binaural audio at any target viewpoint, given a mono audio emitted by a sound source at a 3D scene. Existing methods have proposed NeRF-based implicit models to exploit visual cues as a condition for synthesizing binaural audio. However, in addition to low efficiency originating from heavy NeRF rendering, these methods all have a limited ability of characterizing the entire scene environment such as room geometry, material properties, and the spatial relation between the listener and sound source. To address these issues, we propose a novel Audio-Visual Gaussian Splatting (AV-GS) model. To obtain a material-aware and geometry-aware condition for audio synthesis, we learn an explicit point-based scene representation with an audio-guidance parameter on locally initialized Gaussian points, taking into account the space relation from the listener and sound source. To make the visual scene model audio adaptive, we propose a point densification and pruning strategy to optimally distribute the Gaussian points, with the per-point contribution in sound propagation (e.g., more points needed for texture-less wall surfaces as they affect sound path diversion). Extensive experiments validate the superiority of our AV-GS over existing alternatives on the real-world RWAS and simulation-based SoundSpaces datasets.
Abstract（参考訳）: 新しいビュー音響合成(NVAS)は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でバイノーラルオーディオを描画することを目的としている。既存の手法では、バイノーラルオーディオを合成するための条件として視覚的手がかりを利用するために、NeRFベースの暗黙モデルが提案されている。しかし, ヘビーNeRFレンダリングによる低効率化に加えて, 室内形状, 材料特性, リスナーと音源の空間的関係など, シーン環境全体を特徴付ける能力に制限がある。これらの問題に対処するために,我々は新しいオーディオ・ビジュアル・ガウス・スプラッティング(AV-GS)モデルを提案する。音声合成のための材料認識および幾何認識条件を得るため,局所初期化ガウス点の音響誘導パラメータを用いて,聞き手と音源の空間関係を考慮した明示的なポイントベースシーン表現を学習する。視覚的シーンモデルに適応させるため,ガウス点を最適に分配する点密度化およびプルーニング戦略を提案し,音の伝搬に寄与する点数(例えば,壁面のテクスチャに必要となる点数)について検討した。大規模な実験により、実世界のRWASおよびシミュレーションベースのSoundSpacesデータセット上の既存の代替品よりもAV-GSの方が優れていることが検証された。

関連論文リスト

In-the-wild Audio Spatialization with Flexible Text-guided Localization [37.60344400859993]
没入感を高めるために、オーディオはAR、VR、組み込みAIアプリケーションにおける音の物体を空間的に認識する。既存のオーディオ空間化法は一般に任意のモノラルオーディオを音声信号にマッピングできるが、複雑なマルチオブジェクトのユーザ対話環境において必要とされる柔軟性と対話性に欠けることが多い。フレキシブルテキストプロンプトを利用したテキスト誘導型音声空間化(TAS)フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-01T09:41:56Z)
CCStereo: Audio-Visual Contextual and Contrastive Learning for Binaural Audio Generation [21.58489462776634]
バイノーラルオーディオ生成(BAG)は、視覚的プロンプトを用いてモノラルオーディオをステレオオーディオに変換することを目的としている。現在のモデルは、部屋の環境に過度に適合し、きめ細かい空間的詳細を失うリスクがある。本稿では,音声-視覚条件正規化層を取り入れた新しい音声-視覚生成モデルを提案する。
論文参考訳（メタデータ） (2025-01-06T06:04:21Z)
SOAF: Scene Occlusion-aware Neural Acoustic Field [9.651041527067907]
そこで我々は,Scene Occlusion-aware Acoustic Field (SOAF) と呼ばれる新しい手法を提案する。提案手法は,距離対応パラメトリック音波伝搬モデルを用いた音場に先行する手法である。そこで我々は、Fibonacci Sphereを用いて、受信機を中心にした局所音場から特徴を抽出し、新しい視聴のための音声を生成する。
論文参考訳（メタデータ） (2024-07-02T13:40:56Z)
Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。 RAFは密集した室内音響データを提供する最初のデータセットである。
論文参考訳（メタデータ） (2024-03-27T17:59:56Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文参考訳（メタデータ） (2023-02-04T04:17:19Z)
Listen2Scene: Interactive material-aware binaural sound propagation for reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文参考訳（メタデータ） (2023-02-02T04:09:23Z)
Geometry-Aware Multi-Task Learning for Binaural Audio Generation from Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文参考訳（メタデータ） (2021-11-21T19:26:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。