論文の概要: StereoSync: Spatially-Aware Stereo Audio Generation from Video
- arxiv url: http://arxiv.org/abs/2510.05828v1
- Date: Tue, 07 Oct 2025 11:51:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.232622
- Title: StereoSync: Spatially-Aware Stereo Audio Generation from Video
- Title(参考訳): StereoSync:ビデオから空間的に認識されたステレオオーディオ生成
- Authors: Christian Marinoni, Riccardo Fosco Gramaccioni, Kazuki Shimada, Takashi Shibuya, Yuki Mitsufuji, Danilo Comminiello,
- Abstract要約: StereoSyncは、時間的に参照ビデオと同期し、その視覚的コンテキストと空間的に整合するオーディオを生成するように設計された新しいモデルである。
StereoSync on Walking The Mapsは、さまざまな環境を歩き回るアニメキャラクターを特徴とするビデオゲームのビデオからなるデータセットである。
- 参考スコア(独自算出の注目度): 36.230236159381995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although audio generation has been widely studied over recent years, video-aligned audio generation still remains a relatively unexplored frontier. To address this gap, we introduce StereoSync, a novel and efficient model designed to generate audio that is both temporally synchronized with a reference video and spatially aligned with its visual context. Moreover, StereoSync also achieves efficiency by leveraging pretrained foundation models, reducing the need for extensive training while maintaining high-quality synthesis. Unlike existing methods that primarily focus on temporal synchronization, StereoSync introduces a significant advancement by incorporating spatial awareness into video-aligned audio generation. Indeed, given an input video, our approach extracts spatial cues from depth maps and bounding boxes, using them as cross-attention conditioning in a diffusion-based audio generation model. Such an approach allows StereoSync to go beyond simple synchronization, producing stereo audio that dynamically adapts to the spatial structure and movement of a video scene. We evaluate StereoSync on Walking The Maps, a curated dataset comprising videos from video games that feature animated characters walking through diverse environments. Experimental results demonstrate the ability of StereoSync to achieve both temporal and spatial alignment, advancing the state of the art in video-to-audio generation and resulting in a significantly more immersive and realistic audio experience.
- Abstract(参考訳): 近年、音声生成は広く研究されているが、ビデオ・アライン・オーディオ・ジェネレーションはいまだに未解明のフロンティアである。
このギャップに対処するために,StereoSyncという,参照ビデオと時間的に同期し,その視覚的コンテキストに空間的に整合した音声を生成するための,新規で効率的なモデルを紹介した。
さらに、StereoSyncは、事前訓練された基礎モデルを活用することで効率も向上し、高品質な合成を維持しながら、広範なトレーニングの必要性を低減します。
時間同期に主眼を置いている既存の方法とは異なり、StereoSyncは空間認識をビデオ整列音声生成に取り入れることで、大幅な進歩をもたらす。
実際,入力映像から深度マップやバウンディングボックスから空間的手がかりを抽出し,拡散型音声生成モデルにおける相互注意条件として利用した。
このようなアプローチにより、StereoSyncは単純な同期を超えて、ビデオシーンの空間構造や動きに動的に適応するステレオオーディオを生成することができる。
StereoSync on Walking The Mapsは、さまざまな環境を歩き回るアニメキャラクターを特徴とするビデオゲームのビデオからなる、キュレートされたデータセットである。
実験の結果,ステレオシンクは時間的・空間的アライメントを実現し,映像音声生成の最先端を推し進め,没入的でリアルなオーディオ体験を実現することができた。
関連論文リスト
- Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers [19.226787997122987]
380x640の解像度、24fpsのビデオが多様な音声入力と同期するSyncphonyを提案する。
提案手法は,事前学習したビデオバックボーン上に構築され,同期性を改善するために2つの重要なコンポーネントが組み込まれている。
AVSync15とThe Greatest Hitsデータセットの実験では、Syncphonyは同期精度と視覚的品質の両方で既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-09-26T05:30:06Z) - InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - MirrorMe: Towards Realtime and High Fidelity Audio-Driven Halfbody Animation [21.216297567167036]
MirrorMeは、LTXビデオモデル上に構築されたリアルタイムで制御可能なフレームワークである。
MirrorMeは映像を空間的に時間的に圧縮し、効率的な遅延空間をデノイングする。
EMTDベンチマークの実験では、MirrorMeの忠実さ、リップシンク精度、時間的安定性が実証されている。
論文 参考訳(メタデータ) (2025-06-27T09:57:23Z) - Audio-Sync Video Generation with Multi-Stream Temporal Control [64.00019697525322]
我々は,正確な音声-視覚同期を備えたビデオ生成のための多目的フレームワークであるMTVを紹介する。
MTVは音声を音声、エフェクト、トラックに分離し、唇の動き、イベントタイミング、視覚的気分を制御できる。
このフレームワークをサポートするために、高品質な撮影ビデオとデミックスされたオーディオトラックのデータセットであるDremixを提示する。
論文 参考訳(メタデータ) (2025-06-09T17:59:42Z) - UniSync: A Unified Framework for Audio-Visual Synchronization [7.120340851879775]
We present UniSync, a novel approach for a audio-visual sync using embedded similarities。
我々は、差分に基づく損失成分と、話者間非同期ペアによる対照的な学習フレームワークを強化する。
UniSyncは、標準データセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-03-20T17:16:03Z) - ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - Sparse in Space and Time: Audio-visual Synchronisation with Trainable
Selectors [103.21152156339484]
本研究の目的は,一般映像の「野生」音声・視覚同期である。
我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。
音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
論文 参考訳(メタデータ) (2022-10-13T14:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。