論文の概要: SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation
- arxiv url: http://arxiv.org/abs/2508.00782v1
- Date: Fri, 01 Aug 2025 17:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.965987
- Title: SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation
- Title(参考訳): SpA2V:音声駆動型空間認識ビデオ生成のための空間聴覚キュース
- Authors: Kien T. Pham, Yingqing He, Yazhou Xing, Qifeng Chen, Long Chen,
- Abstract要約: SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。
入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
- 参考スコア(独自算出の注目度): 50.03810359300705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven video generation aims to synthesize realistic videos that align with input audio recordings, akin to the human ability to visualize scenes from auditory input. However, existing approaches predominantly focus on exploring semantic information, such as the classes of sounding sources present in the audio, limiting their ability to generate videos with accurate content and spatial composition. In contrast, we humans can not only naturally identify the semantic categories of sounding sources but also determine their deeply encoded spatial attributes, including locations and movement directions. This useful information can be elucidated by considering specific spatial indicators derived from the inherent physical properties of sound, such as loudness or frequency. As prior methods largely ignore this factor, we present SpA2V, the first framework explicitly exploits these spatial auditory cues from audios to generate videos with high semantic and spatial correspondence. SpA2V decomposes the generation process into two stages: 1) Audio-guided Video Planning: We meticulously adapt a state-of-the-art MLLM for a novel task of harnessing spatial and semantic cues from input audio to construct Video Scene Layouts (VSLs). This serves as an intermediate representation to bridge the gap between the audio and video modalities. 2) Layout-grounded Video Generation: We develop an efficient and effective approach to seamlessly integrate VSLs as conditional guidance into pre-trained diffusion models, enabling VSL-grounded video generation in a training-free manner. Extensive experiments demonstrate that SpA2V excels in generating realistic videos with semantic and spatial alignment to the input audios.
- Abstract(参考訳): オーディオ駆動ビデオ生成は、人間の聴覚入力からシーンを可視化する能力に似た、入力されたオーディオ録音と整合したリアルなビデオを合成することを目的としている。
しかし、既存のアプローチは、主に音声に含まれる音源のクラスのような意味情報の探索に重点を置いており、正確な内容と空間構成でビデオを生成する能力を制限する。
対照的に、人間は自然に音源の意味的カテゴリを特定できるだけでなく、位置や移動方向を含む深層的な空間特性も決定できる。
この有用な情報は、音の大きさや周波数などの音固有の物理的特性から導かれる特定の空間的指標を考慮し、解明することができる。
従来,この要因をほとんど無視する手法として,第1のフレームワークであるSpA2Vが,音声からこれらの空間的聴覚的手がかりを明示的に活用し,意味的・空間的対応性の高い映像を生成する。
SpA2Vは生成プロセスを2段階に分解する。
1) 音声誘導映像プランニング: 入力音声から空間的・意味的手がかりを利用して映像シーンレイアウト(VSL)を構築する新しいタスクに,最先端のMLLMを慎重に適用する。
これはオーディオとビデオのモダリティのギャップを埋める中間表現として機能する。
2) Layout-grounded Video Generation:VSLを条件付き拡散モデルにシームレスに統合し,トレーニング不要なビデオ生成を可能にする,効率的かつ効率的な手法を開発する。
広汎な実験により、SpA2Vは入力オーディオに意味的および空間的アライメントを持つリアルなビデオを生成するのに優れていることが示された。
関連論文リスト
- From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model [2.2927722373373247]
ImmerseDiffusionは音の空間的・時間的・環境的条件を条件とした3次元没入型音像を生成する。
論文 参考訳(メタデータ) (2024-10-19T02:28:53Z) - SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound [5.999777817331317]
SEE-2-SOUNDは,タスクを(1)視覚領域の識別,(2)これらの要素を3次元空間に配置すること,(3)モノオーディオを生成すること,(4)空間オーディオに統合すること,に分解するゼロショットアプローチである。
本フレームワークを用いて,インターネットから高画質ビデオ,画像,ダイナミック画像,および学習手法によって生成されたメディアに対して,空間音声を生成するための説得力のある結果を提示する。
論文 参考訳(メタデータ) (2024-06-06T22:55:01Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos [69.79632907349489]
本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。
本手法では,マスク付き(マルチチャネル)音声を音声と視覚の相乗効果により合成するために,マスク付き自動符号化フレームワークを用いる。
論文 参考訳(メタデータ) (2023-07-10T17:58:17Z) - Sound-Guided Semantic Video Generation [15.225598817462478]
本稿では,マルチモーダル(音像文)埋め込み空間を活用することで,リアルな映像を生成するフレームワークを提案する。
音はシーンの時間的文脈を提供するので、我々のフレームワークは音と意味的に整合したビデオを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-20T07:33:10Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。