論文の概要: AV-Surf: Surface-Enhanced Geometry-Aware Novel-View Acoustic Synthesis
- arxiv url: http://arxiv.org/abs/2503.12806v1
- Date: Mon, 17 Mar 2025 04:22:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:27:49.092153
- Title: AV-Surf: Surface-Enhanced Geometry-Aware Novel-View Acoustic Synthesis
- Title(参考訳): AV-Surf:表面強調幾何-新しい視点音響合成
- Authors: Hadam Baek, Hannie Shin, Jiyoung Seo, Chanwoo Kim, Saerom Kim, Hyeongbok Kim, Sangpil Kim,
- Abstract要約: 複雑な実環境下での音響伝搬の正確なモデル化は、新しい視点音響合成(NVAS)に不可欠である
空間音響モデルを改善するため,NVASのための表面形状認識手法を提案する。
本稿では,エミッタ周辺を理解するために,幾何的制約を周波数クエリに組み込んだ2つのクロスアテンション型変換器を提案する。
- 参考スコア(独自算出の注目度): 4.751910547396398
- License:
- Abstract: Accurately modeling sound propagation with complex real-world environments is essential for Novel View Acoustic Synthesis (NVAS). While previous studies have leveraged visual perception to estimate spatial acoustics, the combined use of surface normal and structural details from 3D representations in acoustic modeling has been underexplored. Given their direct impact on sound wave reflections and propagation, surface normals should be jointly modeled with structural details to achieve accurate spatial acoustics. In this paper, we propose a surface-enhanced geometry-aware approach for NVAS to improve spatial acoustic modeling. To achieve this, we exploit geometric priors, such as image, depth map, surface normals, and point clouds obtained using a 3D Gaussian Splatting (3DGS) based framework. We introduce a dual cross-attention-based transformer integrating geometrical constraints into frequency query to understand the surroundings of the emitter. Additionally, we design a ConvNeXt-based spectral features processing network called Spectral Refinement Network (SRN) to synthesize realistic binaural audio. Experimental results on the RWAVS and SoundSpace datasets highlight the necessity of our approach, as it surpasses existing methods in novel view acoustic synthesis.
- Abstract(参考訳): 複雑な実環境下での音響伝搬の正確なモデル化は,ノベルビュー音響合成(NVAS)に不可欠である。
従来の研究では、空間音響を推定するために視覚的知覚を活用してきたが、音響モデルにおける表面の正規表現と3次元表現による構造的詳細の併用は、過小評価されている。
音波の反射と伝搬に直接的な影響を与えることを考慮すれば、表面の正常は、正確な空間音響を達成するために、構造的詳細と共同でモデル化されるべきである。
本論文では,空間音響モデルを改善するため,NVASのための表面形状認識手法を提案する。
これを実現するために,3次元ガウススプラッティング(3DGS)ベースのフレームワークを用いて得られた画像,深度マップ,表面正規分布,点雲などの幾何学的先行情報を利用する。
本稿では,エミッタ周辺を理解するために,幾何的制約を周波数クエリに組み込んだ2つのクロスアテンション型変換器を提案する。
さらに,ConvNeXtを用いたスペクトル特徴量処理ネットワークであるSpectral Refinement Network (SRN) を設計し,現実的なバイノーラルオーディオを合成する。
RWAVS と SoundSpace のデータセットを用いた実験結果は,新しい視点音響合成における既存の手法を超越したアプローチの必要性を浮き彫りにしている。
関連論文リスト
- AniSDF: Fused-Granularity Neural Surfaces with Anisotropic Encoding for High-Fidelity 3D Reconstruction [55.69271635843385]
AniSDF(AniSDF)は,高忠実度3次元再構成のための物理に基づく符号化による融合粒度ニューラルサーフェスを学習する新しいアプローチである。
本手法は, 幾何再構成と新規ビュー合成の両面において, SDF法の品質を飛躍的に向上させる。
論文 参考訳(メタデータ) (2024-10-02T03:10:38Z) - Talk3D: High-Fidelity Talking Portrait Synthesis via Personalized 3D Generative Prior [29.120669908374424]
本研究では,Talk3Dと呼ばれる新しい音声駆動音声ヘッド合成フレームワークを提案する。
予め訓練された3D認識生成前を効果的に活用することにより、そのもっともらしい顔のジオメトリを忠実に再構築することができる。
提案手法は,既存の手法と比較して,極端な頭部ポーズ下であっても,現実的な顔のジオメトリーの生成に優れる。
論文 参考訳(メタデータ) (2024-03-29T12:49:40Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Ternary-Type Opacity and Hybrid Odometry for RGB NeRF-SLAM [58.736472371951955]
表面を交差する光線上の点を3つの領域(前・前・後・後)に分類する3成分式不透明度モデルを導入する。
これにより、より正確な深度のレンダリングが可能となり、画像ワープ技術の性能が向上する。
TTとHOの統合アプローチは,合成および実世界のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-20T18:03:17Z) - VoxNeRF: Bridging Voxel Representation and Neural Radiance Fields for Enhanced Indoor View Synthesis [73.50359502037232]
VoxNeRFは、ニューラル室内再構成と新しいビュー合成の質と効率を高めるための新しいアプローチである。
本稿では,最も関連性の高い領域に計算資源を割り当てる効率的なボクセル誘導サンプリング手法を提案する。
私たちのアプローチは、ScanNetとScanNet++に関する広範な実験で検証されています。
論文 参考訳(メタデータ) (2023-11-09T11:32:49Z) - Neural Implicit Surface Reconstruction using Imaging Sonar [38.73010653104763]
画像ソナー(FLS)を用いた物体の高密度3次元再構成手法を提案する。
シーン幾何を点雲や体積格子としてモデル化する従来の手法と比較して、幾何をニューラル暗黙関数として表現する。
我々は,実データと合成データを用いて実験を行い,本アルゴリズムは,従来よりも高精細なFLS画像から高精細な表面形状を再構成し,それに伴うメモリオーバーヘッドに悩まされることを実証した。
論文 参考訳(メタデータ) (2022-09-17T02:23:09Z) - Implicit Neural Representation Learning for Hyperspectral Image
Super-Resolution [0.0]
Inlicit Neural Representations (INR)は、新しい効果的な表現として進歩を遂げている。
本稿では、空間座標を対応するスペクトル放射率値にマッピングする連続関数により、HSIを表すINRに基づく新しいHSI再構成モデルを提案する。
論文 参考訳(メタデータ) (2021-12-20T14:07:54Z) - Polka Lines: Learning Structured Illumination and Reconstruction for
Active Stereo [52.68109922159688]
本稿では,波動光学と幾何光学の両方に依存した,アクティブステレオのための新しい微分可能な画像形成モデルと,新しい三眼再構成ネットワークを提案する。
Polka Lines" を再現ネットワークと組み合わせた共同最適化パターンは, 撮像条件全体にわたって, 最先端のアクティブステレオ深度推定を達成している。
論文 参考訳(メタデータ) (2020-11-26T04:02:43Z) - Robust Sound Source Tracking Using SRP-PHAT and 3D Convolutional Neural
Networks [10.089520556398574]
本稿では,SRP-PHATアルゴリズムと3次元畳み込みニューラルネットワークに基づく単一音源DOA推定・追跡システムを提案する。
SRP-PHATパワーマップを完全な畳み込み因果アーキテクチャの入力特徴として使用し、3次元畳み込み層を用いて音源の追跡を正確に行う。
論文 参考訳(メタデータ) (2020-06-16T09:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。