論文の概要: SpatialV2A: Visual-Guided High-fidelity Spatial Audio Generation
- arxiv url: http://arxiv.org/abs/2601.15017v1
- Date: Wed, 21 Jan 2026 14:14:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.389872
- Title: SpatialV2A: Visual-Guided High-fidelity Spatial Audio Generation
- Title(参考訳): 空間V2A:視覚誘導高忠実な空間オーディオ生成
- Authors: Yanan Wang, Linjie Ren, Zihao Li, Junyi Wang, Tian Gan,
- Abstract要約: BinauralVGSoundは、空間的に認識されたビデオ・オーディオ生成をサポートするために設計された、最初の大規模ビデオ・バイオーラルオーディオデータセットである。
このフレームワークには視覚誘導型音響空間化モジュールが組み込まれており、生成したオーディオが現実的な空間特性と層状空間深さを示すことを保証する。
すべてのデータセット、コード、モデルチェックポイントが公開され、将来の研究を促進する。
- 参考スコア(独自算出の注目度): 15.901895888187711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While video-to-audio generation has achieved remarkable progress in semantic and temporal alignment, most existing studies focus solely on these aspects, paying limited attention to the spatial perception and immersive quality of the synthesized audio. This limitation stems largely from current models' reliance on mono audio datasets, which lack the binaural spatial information needed to learn visual-to-spatial audio mappings. To address this gap, we introduce two key contributions: we construct BinauralVGGSound, the first large-scale video-binaural audio dataset designed to support spatially aware video-to-audio generation; and we propose a end-to-end spatial audio generation framework guided by visual cues, which explicitly models spatial features. Our framework incorporates a visual-guided audio spatialization module that ensures the generated audio exhibits realistic spatial attributes and layered spatial depth while maintaining semantic and temporal alignment. Experiments show that our approach substantially outperforms state-of-the-art models in spatial fidelity and delivers a more immersive auditory experience, without sacrificing temporal or semantic consistency. All datasets, code, and model checkpoints will be publicly released to facilitate future research.
- Abstract(参考訳): 映像音声生成は意味的・時間的アライメントにおいて顕著な進歩を遂げてきたが、既存の研究の多くはこれらの側面にのみ焦点をあて、合成音声の空間的知覚と没入的品質に限られた注意を払っている。
この制限は、視覚と空間のオーディオマッピングを学ぶのに必要なバイノーラル空間情報を欠くモノラルオーディオデータセットに依存している現在のモデルに起因している。
このギャップに対処するため,我々は空間的に認識される映像音声生成を支援するために,BinauralVGSoundという,最初の大規模ビデオバイノーラルオーディオデータセットを構築し,空間的特徴を明示的にモデル化する視覚的手がかりによってガイドされるエンドツーエンドの空間音声生成フレームワークを提案する。
本フレームワークは,視覚誘導型音響空間化モジュールを内蔵し,生成した音声が意味的・時間的アライメントを維持しつつ,現実的な空間特性と階層化された空間深度を示すことを保証する。
実験により, 時間的・意味的整合性を犠牲にすることなく, 空間的忠実度において最先端のモデルを大幅に上回り, より没入的な聴覚体験を提供することが示された。
すべてのデータセット、コード、モデルチェックポイントが公開され、将来の研究を促進する。
関連論文リスト
- ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation [55.76423101183408]
ViSAudioは、条件付きフローマッチングとデュアルブランチオーディオ生成アーキテクチャを利用するエンドツーエンドフレームワークである。
空間浸漬による高品質なオーディオを生成し、視点の変化、音源の動き、様々な音響環境に適応する。
論文 参考訳(メタデータ) (2025-12-02T18:56:12Z) - AudioScene: Integrating Object-Event Audio into 3D Scenes [19.66595321540055]
本稿では,AudioScanNetとAudioRobothorという2つの新しいオーディオ空間シーンデータセットを提案する。
音声クリップと空間的に整列した3Dシーンを統合することで、我々のデータセットは、音声信号が空間的文脈とどのように相互作用するかの研究を可能にする。
論文 参考訳(メタデータ) (2025-11-25T14:28:13Z) - SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。
入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文 参考訳(メタデータ) (2025-08-01T17:05:04Z) - Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis [56.749927786910554]
本稿では,ガウススティングと構造化オーディオファクトリゼーションプレーン(Audio-Plane)を統合し,高品質,音声同期,リアルタイム音声ヘッド生成を実現する新しいフレームワークを提案する。
提案手法は,最先端の視覚的品質,正確なオーディオ-リップ同期,リアルタイム性能を実現し,従来の2次元および3次元のパラダイムよりも優れていた。
論文 参考訳(メタデータ) (2025-03-28T16:50:27Z) - Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず,大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mの構築を行った。
空間誘導を利用してテキストから没入型かつ制御可能な空間音声を生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound [5.999777817331317]
SEE-2-SOUNDは,タスクを(1)視覚領域の識別,(2)これらの要素を3次元空間に配置すること,(3)モノオーディオを生成すること,(4)空間オーディオに統合すること,に分解するゼロショットアプローチである。
本フレームワークを用いて,インターネットから高画質ビデオ,画像,ダイナミック画像,および学習手法によって生成されたメディアに対して,空間音声を生成するための説得力のある結果を提示する。
論文 参考訳(メタデータ) (2024-06-06T22:55:01Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。