論文の概要: Generating Moving 3D Soundscapes with Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2507.07318v2
- Date: Fri, 19 Sep 2025 13:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 14:11:07.132431
- Title: Generating Moving 3D Soundscapes with Latent Diffusion Models
- Title(参考訳): 潜時拡散モデルを用いた移動型3次元音場生成
- Authors: Christian Templin, Yanda Zhu, Hao Wang,
- Abstract要約: 本稿では,移動音源を明示的に制御したアンビニクス音声を生成するためのフレームワークであるSonicMotionを紹介する。
SonicMotionは、最先端のテキスト音声システムに匹敵する最先端のセマンティックアライメントと知覚品質を実現する。
- 参考スコア(独自算出の注目度): 4.792255437561157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial audio has become central to immersive applications such as VR/AR, cinema, and music. Existing generative audio models are largely limited to mono or stereo formats and cannot capture the full 3D localization cues available in first-order Ambisonics (FOA). Recent FOA models extend text-to-audio generation but remain restricted to static sources. In this work, we introduce SonicMotion, the first end-to-end latent diffusion framework capable of generating FOA audio with explicit control over moving sound sources. SonicMotion is implemented in two variations: 1) a descriptive model conditioned on natural language prompts, and 2) a parametric model conditioned on both text and spatial trajectory parameters for higher precision. To support training and evaluation, we construct a new dataset of over one million simulated FOA caption pairs that include both static and dynamic sources with annotated azimuth, elevation, and motion attributes. Experiments show that SonicMotion achieves state-of-the-art semantic alignment and perceptual quality comparable to leading text-to-audio systems, while uniquely attaining low spatial localization error.
- Abstract(参考訳): 空間オーディオはVR/AR、映画、音楽などの没入型アプリケーションの中心となっている。
既存の生成オーディオモデルは、主にモノまたはステレオ形式に限られており、一階Ambisonics (FOA)で利用可能な完全な3Dローカライゼーションキューをキャプチャできない。
最近のFOAモデルはテキストからオーディオ生成を拡張しているが、静的ソースに限定されている。
本研究では,移動音源を明示的に制御したFOA音声を生成可能な,最初のエンドツーエンド遅延拡散フレームワークであるSonicMotionを紹介する。
SonicMotionは2つのバリエーションで実装されている。
1)自然言語のプロンプトに条件付き記述モデル,及び
2) テキストおよび空間軌跡パラメータに条件付きパラメトリックモデルを用いて, 高精度化を図る。
トレーニングと評価を支援するために,注釈付方位,高さ,動き特性を持つ静的および動的ソースを含む,100万以上のFOAキャプションペアからなる新しいデータセットを構築した。
実験により,SonicMotionは先行する音声合成システムに匹敵する最先端のセマンティックアライメントと知覚的品質を実現し,空間的局所化誤差を一意に達成した。
関連論文リスト
- SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。
入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文 参考訳(メタデータ) (2025-08-01T17:05:04Z) - MOSPA: Human Motion Generation Driven by Spatial Audio [56.735282455483954]
本稿では,多種多様で高品質な空間音声・動きデータを含む,空間音声駆動型人体運動データセットについて紹介する。
MOSPAと呼ばれるSPatial Audioによって駆動される人間の運動生成のための、シンプルで効果的な拡散に基づく生成フレームワークを開発する。
トレーニングが完了すると、MOSPAは様々な空間的オーディオ入力に基づいて、多様なリアルな人間の動作を生成することができる。
論文 参考訳(メタデータ) (2025-07-16T06:33:11Z) - Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis [56.749927786910554]
本稿では,ガウススティングと構造化オーディオファクトリゼーションプレーン(Audio-Plane)を統合し,高品質,音声同期,リアルタイム音声ヘッド生成を実現する新しいフレームワークを提案する。
提案手法は,最先端の視覚的品質,正確なオーディオ-リップ同期,リアルタイム性能を実現し,従来の2次元および3次元のパラダイムよりも優れていた。
論文 参考訳(メタデータ) (2025-03-28T16:50:27Z) - ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model [2.2927722373373247]
ImmerseDiffusionは音の空間的・時間的・環境的条件を条件とした3次元没入型音像を生成する。
論文 参考訳(メタデータ) (2024-10-19T02:28:53Z) - Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず,大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mの構築を行った。
空間誘導を利用してテキストから没入型かつ制御可能な空間音声を生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - Modeling and Driving Human Body Soundfields through Acoustic Primitives [79.38642644610592]
本研究では,人体が生成する全3次元音場をレンダリングし,高品質な空間オーディオ生成を実現するフレームワークを提案する。
我々は,3次元空間の任意の点において,全音響シーンを効率よく,正確にレンダリングできることを実証した。
我々の音響プリミティブは、従来の手法に比べて、音場表現が桁違い小さくなり、近接場レンダリングの欠陥を克服する。
論文 参考訳(メタデータ) (2024-07-18T01:05:13Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。