論文の概要: ProAV-DiT: A Projected Latent Diffusion Transformer for Efficient Synchronized Audio-Video Generation
- arxiv url: http://arxiv.org/abs/2511.12072v1
- Date: Sat, 15 Nov 2025 07:24:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.585662
- Title: ProAV-DiT: A Projected Latent Diffusion Transformer for Efficient Synchronized Audio-Video Generation
- Title(参考訳): ProAV-DiT:高効率同期オーディオビデオ生成用遅延拡散変換器
- Authors: Jiahui Sun, Weining Wang, Mingzhen Sun, Yirong Yang, Xinxin Zhu, Jing Liu,
- Abstract要約: ProAV-DiT (ProAV-DiT) は、高効率かつ同期化されたオーディオビデオ生成用に設計された投射潜時拡散変換器である。
ProAV-DiTは、マルチスケールのデュアルストリーム時空間オートエンコーダ(MDSA)を採用している。
ProAV-DiTは、生成品質と計算効率の両方において、既存の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 15.636132687296788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sounding Video Generation (SVG) remains a challenging task due to the inherent structural misalignment between audio and video, as well as the high computational cost of multimodal data processing. In this paper, we introduce ProAV-DiT, a Projected Latent Diffusion Transformer designed for efficient and synchronized audio-video generation. To address structural inconsistencies, we preprocess raw audio into video-like representations, aligning both the temporal and spatial dimensions between audio and video. At its core, ProAV-DiT adopts a Multi-scale Dual-stream Spatio-Temporal Autoencoder (MDSA), which projects both modalities into a unified latent space using orthogonal decomposition, enabling fine-grained spatiotemporal modeling and semantic alignment. To further enhance temporal coherence and modality-specific fusion, we introduce a multi-scale attention mechanism, which consists of multi-scale temporal self-attention and group cross-modal attention. Furthermore, we stack the 2D latents from MDSA into a unified 3D latent space, which is processed by a spatio-temporal diffusion Transformer. This design efficiently models spatiotemporal dependencies, enabling the generation of high-fidelity synchronized audio-video content while reducing computational overhead. Extensive experiments conducted on standard benchmarks demonstrate that ProAV-DiT outperforms existing methods in both generation quality and computational efficiency.
- Abstract(参考訳): Sounding Video Generation (SVG) は、音声とビデオ間の構造的ミスアライメントや、マルチモーダルデータ処理の計算コストが高いため、依然として困難な課題である。
本稿では,高効率かつ同期のオーディオビデオ生成を目的としたプロジェクテッド潜時拡散変換器ProAV-DiTを紹介する。
構造的不整合に対処するために、生音声をビデオのような表現に前処理し、音声と映像の時間的次元と空間的次元を一致させる。
ProAV-DiT のコアとなるマルチスケールのデュアルストリーム時空間オートエンコーダ (MDSA) は、両モードを直交分解を用いて一貫した潜在空間に投影し、微細な時空間モデリングとセマンティックアライメントを可能にする。
時間的コヒーレンスとモダリティ特異的融合をさらに高めるため,マルチスケールの時間的自己注意とグループ横断的注意からなるマルチスケールアテンション機構を導入する。
さらに,2次元ラテントをMDSAから集積した3次元ラテント空間に積み重ね,時空間拡散変換器で処理する。
この設計は、時空間依存性を効率的にモデル化し、計算オーバーヘッドを低減しつつ、高忠実度同期オーディオビデオコンテンツの生成を可能にする。
ProAV-DiTは、生成品質と計算効率の両方において、既存の手法よりも優れていることを示す。
関連論文リスト
- UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions [34.27531187147479]
UniAVGenは、ジョイントオーディオとビデオ生成のための統一されたフレームワークである。
UniAVGenは、オーディオオーディオ同期、音色、感情の一貫性において全体的なアドバンテージを提供する。
論文 参考訳(メタデータ) (2025-11-05T10:06:51Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models [65.96186414865747]
テキスト・ツー・イメージ(T2I)拡散モデルは、推論速度と画質のトレードオフに直面している。
学生モデルUNetアーキテクチャのための最初の時間非依存の統一TiUEを紹介する。
ワンパススキームを使用して、TiUEは複数のデコーダタイムステップにまたがるエンコーダ機能を共有し、並列サンプリングを可能にする。
論文 参考訳(メタデータ) (2025-05-28T04:23:22Z) - Efficient Long-duration Talking Video Synthesis with Linear Diffusion Transformer under Multimodal Guidance [39.94595889521696]
LetsTalkは、マルチモーダルガイダンスと新しいメモリバンク機構を備えた拡散トランスフォーマーフレームワークである。
特に、LetsTalkは、拡張ビデオ生成時のエラーの蓄積とアーティファクトのサンプリングを緩和するために、ノイズレギュラー化されたメモリバンクを導入している。
我々はLetsTalkが生成品質の新たな最先端を確立し、時間的に一貫したリアルな会話ビデオを生成することを示す。
論文 参考訳(メタデータ) (2024-11-24T04:46:00Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel
Transformer [29.03463312813923]
Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。
既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、ノイズを元の視覚コンテンツから分離する。
粗大な映像をデノナイズするためのDual-stage Spatial-Channel Transformer (DSCT)を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:01:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。