論文の概要: Visual Acoustic Fields
- arxiv url: http://arxiv.org/abs/2503.24270v1
- Date: Mon, 31 Mar 2025 16:16:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:38:19.249601
- Title: Visual Acoustic Fields
- Title(参考訳): 視覚音場
- Authors: Yuelei Li, Hyunjin Kim, Fangneng Zhan, Ri-Zhao Qiu, Mazeyu Ji, Xiaojun Shan, Xueyan Zou, Paul Liang, Hanspeter Pfister, Xiaolong Wang,
- Abstract要約: 本研究では,3次元空間内の音や視覚信号をブリッジするフレームワークであるVisual Acoustic Fieldsを提案する。
提案手法は,音生成と音像定位という2つの重要なモジュールを特徴とする。
私たちの知る限りでは、これが3Dコンテキストで視覚信号と音響信号を接続する最初のデータセットです。
- 参考スコア(独自算出の注目度): 39.43953430861896
- License:
- Abstract: Objects produce different sounds when hit, and humans can intuitively infer how an object might sound based on its appearance and material properties. Inspired by this intuition, we propose Visual Acoustic Fields, a framework that bridges hitting sounds and visual signals within a 3D space using 3D Gaussian Splatting (3DGS). Our approach features two key modules: sound generation and sound localization. The sound generation module leverages a conditional diffusion model, which takes multiscale features rendered from a feature-augmented 3DGS to generate realistic hitting sounds. Meanwhile, the sound localization module enables querying the 3D scene, represented by the feature-augmented 3DGS, to localize hitting positions based on the sound sources. To support this framework, we introduce a novel pipeline for collecting scene-level visual-sound sample pairs, achieving alignment between captured images, impact locations, and corresponding sounds. To the best of our knowledge, this is the first dataset to connect visual and acoustic signals in a 3D context. Extensive experiments on our dataset demonstrate the effectiveness of Visual Acoustic Fields in generating plausible impact sounds and accurately localizing impact sources. Our project page is at https://yuelei0428.github.io/projects/Visual-Acoustic-Fields/.
- Abstract(参考訳): 物体がぶつかると音が違うので、人間はその外見や素材の性質に基づいて、どのように音が鳴るかを直感的に推測することができる。
この直感に触発された視覚音響場は,3次元ガウススプラッティング(3DGS)を用いた3次元空間内の音と視覚信号をブリッジするフレームワークである。
提案手法は,音生成と音像定位という2つの重要なモジュールを特徴とする。
音生成モジュールは条件付き拡散モデルを利用して、特徴量拡張された3DGSからレンダリングされたマルチスケール特徴を利用して、現実的な打音を生成する。
一方、サウンドローカライゼーションモジュールは、特徴拡張された3DGSで表現された3Dシーンをクエリして、音源に基づいてヒット位置をローカライズすることができる。
このフレームワークをサポートするために、シーンレベルの視覚-音のサンプルペアを収集し、キャプチャされた画像、衝撃位置、および対応する音のアライメントを達成するための新しいパイプラインを導入する。
私たちの知る限りでは、これが3Dコンテキストで視覚信号と音響信号を接続する最初のデータセットです。
本データセットの広汎な実験は、可塑性衝撃音の発生と正確な衝撃源の局所化における視覚音場の有効性を示す。
プロジェクトページはhttps://yuelei0428.github.io/projects/Visual-Acoustic-Fields/にある。
関連論文リスト
- SoundLoc3D: Invisible 3D Sound Source Localization and Classification Using a Multimodal RGB-D Acoustic Camera [61.642416712939095]
SoundLoc3Dはタスクをセット予測問題として扱い、セットの各要素は潜在的な音源に対応する。
大規模シミュレーションデータセットにおけるSoundLoc3Dの有効性と優位性を示す。
論文 参考訳(メタデータ) (2024-12-22T05:04:17Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Learning Audio-Visual Dynamics Using Scene Graphs for Audio Source
Separation [36.38300120482868]
本稿では,シーンの3次元構造と音源の動きを利用して,より優れた音源分離を行う深層学習フレームワークであるAudio Separator and Motion Predictor(ASMP)を紹介する。
ASMPは、ソース分離品質の明確な改善を実現し、2つの挑戦的なオーディオビジュアルデータセットの事前処理よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-29T02:55:39Z) - Points2Sound: From mono to binaural audio using 3D point cloud scenes [0.0]
我々は3Dポイントクラウドシーンを用いたモノラルオーディオからバージョンを生成するマルチモーダルディープラーニングモデルであるPoints2Soundを提案する。
その結果,3次元視覚情報により,合成作業のための多モード深層学習モデルを導出できることが示唆された。
論文 参考訳(メタデータ) (2021-04-26T10:44:01Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。