論文の概要: SonicMotion: Dynamic Spatial Audio Soundscapes with Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2507.07318v1
- Date: Wed, 09 Jul 2025 22:31:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.222533
- Title: SonicMotion: Dynamic Spatial Audio Soundscapes with Latent Diffusion Models
- Title(参考訳): SonicMotion:潜時拡散モデルを用いた動的空間音響景観
- Authors: Christian Templin, Yanda Zhu, Hao Wang,
- Abstract要約: 我々は、動的音源による3Dシーンの生成を可能にするため、生成型AIモデルの最近の進歩を拡大したいと考えている。
提案するエンドツーエンドモデルであるSonicMotionには,ユーザ入力と音源定位精度の2つのバリエーションがある。
- 参考スコア(独自算出の注目度): 5.8839502513117194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial audio is an integral part of immersive entertainment, such as VR/AR, and has seen increasing popularity in cinema and music as well. The most common format of spatial audio is described as first-order Ambisonics (FOA). We seek to extend recent advancements in FOA generative AI models to enable the generation of 3D scenes with dynamic sound sources. Our proposed end-to-end model, SonicMotion, comes in two variations which vary in their user input and level of precision in sound source localization. In addition to our model, we also present a new dataset of simulated spatial audio-caption pairs. Evaluation of our models demonstrate that they are capable of matching the semantic alignment and audio quality of state of the art models while capturing the desired spatial attributes.
- Abstract(参考訳): 空間オーディオはVR/ARのような没入型エンターテイメントの不可欠な部分であり、映画や音楽でも人気が高まっている。
空間オーディオの最も一般的な形式は、第1次アンビニクス(FOA)である。
我々は,動的音源を用いた3次元シーン生成を実現するため,FOA生成AIモデルの最近の進歩を推し進める。
提案するエンドツーエンドモデルであるSonicMotionには,ユーザ入力と音源定位精度の2つのバリエーションがある。
また,本モデルに加えて,空間的音声合成ペアの新しいデータセットも提示した。
提案モデルの評価は,所望の空間特性を捉えつつ,最先端モデルのセマンティックアライメントと音質を一致させることができることを示す。
関連論文リスト
- Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis [56.749927786910554]
本稿では,ガウススティングと構造化オーディオファクトリゼーションプレーン(Audio-Plane)を統合し,高品質,音声同期,リアルタイム音声ヘッド生成を実現する新しいフレームワークを提案する。
提案手法は,最先端の視覚的品質,正確なオーディオ-リップ同期,リアルタイム性能を実現し,従来の2次元および3次元のパラダイムよりも優れていた。
論文 参考訳(メタデータ) (2025-03-28T16:50:27Z) - ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model [2.2927722373373247]
ImmerseDiffusionは音の空間的・時間的・環境的条件を条件とした3次元没入型音像を生成する。
論文 参考訳(メタデータ) (2024-10-19T02:28:53Z) - Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず,大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mの構築を行った。
空間誘導を利用してテキストから没入型かつ制御可能な空間音声を生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - Modeling and Driving Human Body Soundfields through Acoustic Primitives [79.38642644610592]
本研究では,人体が生成する全3次元音場をレンダリングし,高品質な空間オーディオ生成を実現するフレームワークを提案する。
我々は,3次元空間の任意の点において,全音響シーンを効率よく,正確にレンダリングできることを実証した。
我々の音響プリミティブは、従来の手法に比べて、音場表現が桁違い小さくなり、近接場レンダリングの欠陥を克服する。
論文 参考訳(メタデータ) (2024-07-18T01:05:13Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。