論文の概要: ViSAGe: Video-to-Spatial Audio Generation
- arxiv url: http://arxiv.org/abs/2506.12199v1
- Date: Fri, 13 Jun 2025 19:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.397852
- Title: ViSAGe: Video-to-Spatial Audio Generation
- Title(参考訳): ViSAGe:ビデオから空間オーディオ生成
- Authors: Jaeyeon Kim, Heeseung Yun, Gunhee Kim,
- Abstract要約: 本稿では,YT-Ambigenについて紹介する。YT-Ambigenは102K5秒のYouTubeビデオクリップと,それに対応する一階アンビソニクスを組み合わせたデータセットである。
本稿では,サイレントビデオフレームから一階アンビソニクスを生成するエンドツーエンドフレームワークViSAGeを提案する。
- 参考スコア(独自算出の注目度): 40.64366309719223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial audio is essential for enhancing the immersiveness of audio-visual experiences, yet its production typically demands complex recording systems and specialized expertise. In this work, we address a novel problem of generating first-order ambisonics, a widely used spatial audio format, directly from silent videos. To support this task, we introduce YT-Ambigen, a dataset comprising 102K 5-second YouTube video clips paired with corresponding first-order ambisonics. We also propose new evaluation metrics to assess the spatial aspect of generated audio based on audio energy maps and saliency metrics. Furthermore, we present Video-to-Spatial Audio Generation (ViSAGe), an end-to-end framework that generates first-order ambisonics from silent video frames by leveraging CLIP visual features, autoregressive neural audio codec modeling with both directional and visual guidance. Experimental results demonstrate that ViSAGe produces plausible and coherent first-order ambisonics, outperforming two-stage approaches consisting of video-to-audio generation and audio spatialization. Qualitative examples further illustrate that ViSAGe generates temporally aligned high-quality spatial audio that adapts to viewpoint changes.
- Abstract(参考訳): 空間オーディオは、オーディオ視覚体験の没入性を高めるために不可欠であるが、その生産は通常、複雑な録音システムと専門的な専門知識を必要とする。
本研究では、サイレントビデオから直接、広く使われている空間音声フォーマットである1次アンビソニクスを生成するという、新しい問題に対処する。
このタスクを支援するために、YT-Ambigenという、102K 5秒のYouTubeビデオクリップと対応する一階アンビソニクスを組み合わせたデータセットを導入する。
また、音声エネルギーマップと唾液度測定値に基づいて、生成された音声の空間的側面を評価するための新しい評価指標を提案する。
さらに,CLIPの視覚的特徴を活用し,指向性および視覚的ガイダンスを備えた自己回帰型ニューラルオーディオコーデックモデリングにより,サイレントビデオフレームから一階アンビソニクスを生成する,エンドツーエンドのフレームワークViSAGeを提案する。
実験により、VSAGeは可塑性でコヒーレントな1次アンビソニクスを生成し、ビデオ・オーディオ生成とオーディオ空間化の2段階のアプローチよりも優れていることが示された。
さらに質的な例では、ViSAGeは視点変化に適応する時間的に整列した空間的オーディオを生成する。
関連論文リスト
- YingSound: Video-Guided Sound Effects Generation with Multi-modal Chain-of-Thought Controls [10.429203168607147]
YingSoundは、ビデオ誘導音声生成のための基礎モデルである。
数ショット設定で高品質なオーディオ生成をサポートする。
本稿では,YingSoundが自動評価と人間の研究を通じて,高品質な同期音を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2024-12-12T10:55:57Z) - Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis [28.172213291270868]
フォーリー(英: Foley)は、サイレント映画やビデオに日々の音響効果を加えることで、オーディエンス体験を高めるために、映画製作において一般的に用いられる用語である。
Video-to-Audio (V2A)は、音声と視覚の同期に関する固有の課題を提示する。
我々は、描画マスクとラウドネス信号による複数の入力命令をサポートする、Draw an Audioと呼ばれる制御可能なビデオ・オーディオモデルを構築した。
論文 参考訳(メタデータ) (2024-09-10T01:07:20Z) - SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound [5.999777817331317]
SEE-2-SOUNDは,タスクを(1)視覚領域の識別,(2)これらの要素を3次元空間に配置すること,(3)モノオーディオを生成すること,(4)空間オーディオに統合すること,に分解するゼロショットアプローチである。
本フレームワークを用いて,インターネットから高画質ビデオ,画像,ダイナミック画像,および学習手法によって生成されたメディアに対して,空間音声を生成するための説得力のある結果を提示する。
論文 参考訳(メタデータ) (2024-06-06T22:55:01Z) - V2Meow: Meowing to the Visual Beat via Video-to-Music Generation [47.076283429992664]
V2Meow(V2Meow)は、様々な種類のビデオ入力に対して高品質な音楽オーディオを制作できるビデオ・音楽生成システムである。
ビデオフレームから抽出した訓練済みの汎用視覚特徴を条件づけて、高忠実度オーディオ波形を合成する。
論文 参考訳(メタデータ) (2023-05-11T06:26:41Z) - AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。