論文の概要: ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation
- arxiv url: http://arxiv.org/abs/2512.03036v1
- Date: Tue, 02 Dec 2025 18:56:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:46.021657
- Title: ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation
- Title(参考訳): ViSAudio: エンド・ツー・エンドのビデオ駆動バイノーラル空間オーディオ生成
- Authors: Mengchen Zhang, Qi Chen, Tong Wu, Zihan Liu, Dahua Lin,
- Abstract要約: ViSAudioは、条件付きフローマッチングとデュアルブランチオーディオ生成アーキテクチャを利用するエンドツーエンドフレームワークである。
空間浸漬による高品質なオーディオを生成し、視点の変化、音源の動き、様々な音響環境に適応する。
- 参考スコア(独自算出の注目度): 55.76423101183408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite progress in video-to-audio generation, the field focuses predominantly on mono output, lacking spatial immersion. Existing binaural approaches remain constrained by a two-stage pipeline that first generates mono audio and then performs spatialization, often resulting in error accumulation and spatio-temporal inconsistencies. To address this limitation, we introduce the task of end-to-end binaural spatial audio generation directly from silent video. To support this task, we present the BiAudio dataset, comprising approximately 97K video-binaural audio pairs spanning diverse real-world scenes and camera rotation trajectories, constructed through a semi-automated pipeline. Furthermore, we propose ViSAudio, an end-to-end framework that employs conditional flow matching with a dual-branch audio generation architecture, where two dedicated branches model the audio latent flows. Integrated with a conditional spacetime module, it balances consistency between channels while preserving distinctive spatial characteristics, ensuring precise spatio-temporal alignment between audio and the input video. Comprehensive experiments demonstrate that ViSAudio outperforms existing state-of-the-art methods across both objective metrics and subjective evaluations, generating high-quality binaural audio with spatial immersion that adapts effectively to viewpoint changes, sound-source motion, and diverse acoustic environments. Project website: https://kszpxxzmc.github.io/ViSAudio-project.
- Abstract(参考訳): 音声合成の進歩にもかかわらず、音場は主にモノの出力に焦点を合わせており、空間浸漬が欠如している。
既存のバイノーラルアプローチは、まずモノラルオーディオを生成し、空間化を行い、しばしばエラーの蓄積と時空間的不整合をもたらす2段階のパイプラインによって制約される。
この制限に対処するために,サイレントビデオから直接両耳間空間音声を生成するタスクを導入する。
この課題を支援するために,バイオーディオ・データセットを提案する。バイオーディオ・データセットは,半自動パイプラインを用いて構築された,多種多様な現実世界シーンとカメラ回転軌跡にまたがる約97Kのビデオ・バイノーラル・オーディオペアから構成される。
さらに,両ブランチ音声生成アーキテクチャと条件付きフローマッチングを併用したエンドツーエンドフレームワークであるViSAudioを提案する。
条件付き時空モジュールと統合され、異なる空間特性を保ちながらチャンネル間の整合性をバランスさせ、音声と入力ビデオの正確な時空間的アライメントを確保する。
総合的な実験により、ViSAudioは、客観的指標と主観的評価の両方で既存の最先端の手法よりも優れており、視点の変化、音源の動き、多様な音響環境に効果的に適応する空間浸漬による高品質なバイノーラルオーディオを生成する。
プロジェクトウェブサイト: https://kszpxxzmc.github.io/ViSAudio-project
関連論文リスト
- Sci-Phi: A Large Language Model Spatial Audio Descriptor [25.302416479626974]
Sci-Phi は空間空間エンコーダとスペクトルエンコーダを備えた空間音響モデルである。
1回のパスで最大4つの方向の音源を列挙し、記述する。
性能をわずかに低下させるだけで、実際の部屋のインパルス応答に一般化する。
論文 参考訳(メタデータ) (2025-10-07T03:06:02Z) - SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。
入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文 参考訳(メタデータ) (2025-08-01T17:05:04Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - ViSAGe: Video-to-Spatial Audio Generation [40.64366309719223]
本稿では,YT-Ambigenについて紹介する。YT-Ambigenは102K5秒のYouTubeビデオクリップと,それに対応する一階アンビソニクスを組み合わせたデータセットである。
本稿では,サイレントビデオフレームから一階アンビソニクスを生成するエンドツーエンドフレームワークViSAGeを提案する。
論文 参考訳(メタデータ) (2025-06-13T19:57:42Z) - YingSound: Video-Guided Sound Effects Generation with Multi-modal Chain-of-Thought Controls [10.429203168607147]
YingSoundは、ビデオ誘導音声生成のための基礎モデルである。
数ショット設定で高品質なオーディオ生成をサポートする。
本稿では,YingSoundが自動評価と人間の研究を通じて,高品質な同期音を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2024-12-12T10:55:57Z) - Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず,大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mの構築を行った。
空間誘導を利用してテキストから没入型かつ制御可能な空間音声を生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。