論文の概要: SonicMotion: Dynamic Spatial Audio Soundscapes with Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2507.07318v1
- Date: Wed, 09 Jul 2025 22:31:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.222533
- Title: SonicMotion: Dynamic Spatial Audio Soundscapes with Latent Diffusion Models
- Title(参考訳): SonicMotion:潜時拡散モデルを用いた動的空間音響景観
- Authors: Christian Templin, Yanda Zhu, Hao Wang,
- Abstract要約: 我々は、動的音源による3Dシーンの生成を可能にするため、生成型AIモデルの最近の進歩を拡大したいと考えている。
提案するエンドツーエンドモデルであるSonicMotionには,ユーザ入力と音源定位精度の2つのバリエーションがある。
- 参考スコア(独自算出の注目度): 5.8839502513117194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial audio is an integral part of immersive entertainment, such as VR/AR, and has seen increasing popularity in cinema and music as well. The most common format of spatial audio is described as first-order Ambisonics (FOA). We seek to extend recent advancements in FOA generative AI models to enable the generation of 3D scenes with dynamic sound sources. Our proposed end-to-end model, SonicMotion, comes in two variations which vary in their user input and level of precision in sound source localization. In addition to our model, we also present a new dataset of simulated spatial audio-caption pairs. Evaluation of our models demonstrate that they are capable of matching the semantic alignment and audio quality of state of the art models while capturing the desired spatial attributes.
- Abstract(参考訳): 空間オーディオはVR/ARのような没入型エンターテイメントの不可欠な部分であり、映画や音楽でも人気が高まっている。
空間オーディオの最も一般的な形式は、第1次アンビニクス(FOA)である。
我々は,動的音源を用いた3次元シーン生成を実現するため,FOA生成AIモデルの最近の進歩を推し進める。
提案するエンドツーエンドモデルであるSonicMotionには,ユーザ入力と音源定位精度の2つのバリエーションがある。
また,本モデルに加えて,空間的音声合成ペアの新しいデータセットも提示した。
提案モデルの評価は,所望の空間特性を捉えつつ,最先端モデルのセマンティックアライメントと音質を一致させることができることを示す。
関連論文リスト
- MOVA: Towards Scalable and Synchronized Video-Audio Generation [91.56945636522345]
高品質で同期した映像コンテンツを生成できるオープンソースモデルMOVA(MOSS Video and Audio)を紹介する。
モデルウェイトとコードをリリースすることによって、研究を進め、クリエーターの活気あるコミュニティを育むことを目指しています。
論文 参考訳(メタデータ) (2026-02-09T15:31:54Z) - Sci-Phi: A Large Language Model Spatial Audio Descriptor [25.302416479626974]
Sci-Phi は空間空間エンコーダとスペクトルエンコーダを備えた空間音響モデルである。
1回のパスで最大4つの方向の音源を列挙し、記述する。
性能をわずかに低下させるだけで、実際の部屋のインパルス応答に一般化する。
論文 参考訳(メタデータ) (2025-10-07T03:06:02Z) - Audio-Guided Dynamic Modality Fusion with Stereo-Aware Attention for Audio-Visual Navigation [41.85539404067887]
オーディオ視覚ナビゲーション(AVN)タスクでは、エンボディエージェントは複雑な3D環境において、音源を自律的にローカライズする必要がある。
既存の手法は、しばしば静的なモダリティ融合戦略に依存し、ステレオオーディオに埋め込まれた空間的手がかりを無視する。
本稿では,2つの重要なイノベーションを生かした,エンドツーエンドの強化学習に基づくAVNフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-21T05:11:09Z) - SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。
入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文 参考訳(メタデータ) (2025-08-01T17:05:04Z) - MOSPA: Human Motion Generation Driven by Spatial Audio [56.735282455483954]
本稿では,多種多様で高品質な空間音声・動きデータを含む,空間音声駆動型人体運動データセットについて紹介する。
MOSPAと呼ばれるSPatial Audioによって駆動される人間の運動生成のための、シンプルで効果的な拡散に基づく生成フレームワークを開発する。
トレーニングが完了すると、MOSPAは様々な空間的オーディオ入力に基づいて、多様なリアルな人間の動作を生成することができる。
論文 参考訳(メタデータ) (2025-07-16T06:33:11Z) - In-the-wild Audio Spatialization with Flexible Text-guided Localization [37.60344400859993]
没入感を高めるために、オーディオはAR、VR、組み込みAIアプリケーションにおける音の物体を空間的に認識する。
既存のオーディオ空間化法は一般に任意のモノラルオーディオを音声信号にマッピングできるが、複雑なマルチオブジェクトのユーザ対話環境において必要とされる柔軟性と対話性に欠けることが多い。
フレキシブルテキストプロンプトを利用したテキスト誘導型音声空間化(TAS)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-01T09:41:56Z) - Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis [56.749927786910554]
本稿では,ガウススティングと構造化オーディオファクトリゼーションプレーン(Audio-Plane)を統合し,高品質,音声同期,リアルタイム音声ヘッド生成を実現する新しいフレームワークを提案する。
提案手法は,最先端の視覚的品質,正確なオーディオ-リップ同期,リアルタイム性能を実現し,従来の2次元および3次元のパラダイムよりも優れていた。
論文 参考訳(メタデータ) (2025-03-28T16:50:27Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model [2.2927722373373247]
ImmerseDiffusionは音の空間的・時間的・環境的条件を条件とした3次元没入型音像を生成する。
論文 参考訳(メタデータ) (2024-10-19T02:28:53Z) - Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず,大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mの構築を行った。
空間誘導を利用してテキストから没入型かつ制御可能な空間音声を生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - Modeling and Driving Human Body Soundfields through Acoustic Primitives [79.38642644610592]
本研究では,人体が生成する全3次元音場をレンダリングし,高品質な空間オーディオ生成を実現するフレームワークを提案する。
我々は,3次元空間の任意の点において,全音響シーンを効率よく,正確にレンダリングできることを実証した。
我々の音響プリミティブは、従来の手法に比べて、音場表現が桁違い小さくなり、近接場レンダリングの欠陥を克服する。
論文 参考訳(メタデータ) (2024-07-18T01:05:13Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。