論文の概要: JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization
- arxiv url: http://arxiv.org/abs/2503.23377v1
- Date: Sun, 30 Mar 2025 09:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.09317
- Title: JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization
- Title(参考訳): JavisDiT:階層型時空間事前同期を用いた共同オーディオ・ビデオ拡散変換器
- Authors: Kai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Rongxin Jiang, Jiebo Luo, Hao Fei, Tat-Seng Chua,
- Abstract要約: JavisDiTは、オープンエンドのユーザープロンプトから高品質なオーディオとビデオコンテンツを同時に生成することができる。
新しいベンチマークであるJavisBenchは、さまざまなシーンと複雑な現実世界のシナリオにまたがる、10,140の高品質なテキストキャプション付きサウンドビデオで構成されている。
- 参考スコア(独自算出の注目度): 94.82127738291749
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces JavisDiT, a novel Joint Audio-Video Diffusion Transformer designed for synchronized audio-video generation (JAVG). Built upon the powerful Diffusion Transformer (DiT) architecture, JavisDiT is able to generate high-quality audio and video content simultaneously from open-ended user prompts. To ensure optimal synchronization, we introduce a fine-grained spatio-temporal alignment mechanism through a Hierarchical Spatial-Temporal Synchronized Prior (HiST-Sypo) Estimator. This module extracts both global and fine-grained spatio-temporal priors, guiding the synchronization between the visual and auditory components. Furthermore, we propose a new benchmark, JavisBench, consisting of 10,140 high-quality text-captioned sounding videos spanning diverse scenes and complex real-world scenarios. Further, we specifically devise a robust metric for evaluating the synchronization between generated audio-video pairs in real-world complex content. Experimental results demonstrate that JavisDiT significantly outperforms existing methods by ensuring both high-quality generation and precise synchronization, setting a new standard for JAVG tasks. Our code, model, and dataset will be made publicly available at https://javisdit.github.io/.
- Abstract(参考訳): 本稿では,JAVG(Joint Audio-Video Diffusion Transformer)とJAVG(Joint Audio-Video Diffusion Transformer)について紹介する。
強力なDiffusion Transformer(DiT)アーキテクチャを基盤として、JavisDiTは、オープンなユーザプロンプトから高品質なオーディオとビデオコンテンツを同時に生成することができる。
最適同期を確保するため,階層型空間時間同期プリミティブ(HiST-Sypo)推定器を介し,微細な時空間アライメント機構を導入する。
このモジュールは、視覚的コンポーネントと聴覚的コンポーネントの同期を導くため、大域的および微粒な時空間的先行を抽出する。
さらに,多様なシーンと複雑な実世界のシナリオにまたがる高品質なテキストキャプション音声ビデオ10,140本からなる新しいベンチマークJavisBenchを提案する。
さらに,実世界の複合コンテンツにおいて生成した音声-ビデオペア間の同期を評価するためのロバストなメトリクスを特に考案する。
実験の結果, JavisDiTは, 高品質な生成と高精度な同期を両立させ, JAVGタスクの新たな標準を設定することにより, 既存の手法よりも優れていた。
私たちのコード、モデル、データセットはhttps://javisdit.github.io/.com/で公開されます。
関連論文リスト
- Zero-Shot Audio-Visual Editing via Cross-Modal Delta Denoising [114.39028517171236]
そこで我々は,ゼロショット音声映像編集を導入し,新たなモデルトレーニングを必要とせず,特定のテキストプロンプトに合わせるために,オリジナル音声映像コンテンツを変換する新しいタスクを提案する。
この課題を評価するために、ゼロショットオーディオビデオ編集用に明示的に設計されたベンチマークデータセットAvED-Benchをキュレートする。
AvEDは、AvED-Benchと最近のOAVEデータセットの両方で優れた結果を示し、その一般化能力を検証する。
論文 参考訳(メタデータ) (2025-03-26T17:59:04Z) - Dual Audio-Centric Modality Coupling for Talking Head Generation [4.03322932416974]
音声駆動音声ヘッドビデオの生成は、仮想アバターやデジタルメディアなど、コンピュータビジョンとグラフィックスにおいて重要な課題である。
従来のアプローチは、しばしば音声と顔のダイナミックスの間の複雑な相互作用を捉え、唇の同期と視覚的品質の問題を引き起こす。
音声入力からコンテンツや動的特徴を効果的に統合する新しいNeRFベースのフレームワークであるDual Audio-Centric Modality Coupling (DAMC)を提案する。
論文 参考訳(メタデータ) (2025-03-26T06:46:51Z) - SyncVIS: Synchronized Video Instance Segmentation [48.75470418596875]
我々はSyncVISという新しいフレームワークを用いて同期モデリングを行う。
SyncVISはビデオレベルのクエリの埋め込みを明示的に導入し、ビデオレベルのクエリとフレームレベルのクエリの埋め込みを同期させる2つの主要なモジュールを設計する。
提案手法は,提案手法の有効性と汎用性を実証し,最先端の結果を得る。
論文 参考訳(メタデータ) (2024-12-01T16:43:20Z) - Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity [12.848371604063168]
本稿では,V2A生成モデルであるMaskVATを提案する。
提案手法は,高品質なオーディオ・ビジュアル特徴とシーケンス・ツー・シーケンス並列構造を組み合わせることで,高い同期性が得られることを示す。
論文 参考訳(メタデータ) (2024-07-15T01:49:59Z) - Text-to-Audio Generation Synchronized with Videos [44.848393652233796]
我々は,T2AV-Benchというビデオと連携したテキスト・ツー・オーディオ生成のための画期的なベンチマークを提案する。
また,ビデオアライメントTTA生成モデル,すなわちT2AVを提案する。
ビデオデータから時間的ニュアンスを抽出し、理解するために、時間的マルチヘッドアテンショントランスフォーマーを使用します。
論文 参考訳(メタデータ) (2024-03-08T22:27:38Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - Sparse in Space and Time: Audio-visual Synchronisation with Trainable
Selectors [103.21152156339484]
本研究の目的は,一般映像の「野生」音声・視覚同期である。
我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。
音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
論文 参考訳(メタデータ) (2022-10-13T14:25:37Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。