論文の概要: Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2509.21893v1
- Date: Fri, 26 Sep 2025 05:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.202399
- Title: Syncphony: Synchronized Audio-to-Video Generation with Diffusion Transformers
- Title(参考訳): シンフォニー:拡散変換器を用いた同期オーディオ・ビデオ生成
- Authors: Jibin Song, Mingi Kwon, Jaeseok Jeong, Youngjung Uh,
- Abstract要約: 380x640の解像度、24fpsのビデオが多様な音声入力と同期するSyncphonyを提案する。
提案手法は,事前学習したビデオバックボーン上に構築され,同期性を改善するために2つの重要なコンポーネントが組み込まれている。
AVSync15とThe Greatest Hitsデータセットの実験では、Syncphonyは同期精度と視覚的品質の両方で既存のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 19.226787997122987
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-video and image-to-video generation have made rapid progress in visual quality, but they remain limited in controlling the precise timing of motion. In contrast, audio provides temporal cues aligned with video motion, making it a promising condition for temporally controlled video generation. However, existing audio-to-video (A2V) models struggle with fine-grained synchronization due to indirect conditioning mechanisms or limited temporal modeling capacity. We present Syncphony, which generates 380x640 resolution, 24fps videos synchronized with diverse audio inputs. Our approach builds upon a pre-trained video backbone and incorporates two key components to improve synchronization: (1) Motion-aware Loss, which emphasizes learning at high-motion regions; (2) Audio Sync Guidance, which guides the full model using a visually aligned off-sync model without audio layers to better exploit audio cues at inference while maintaining visual quality. To evaluate synchronization, we propose CycleSync, a video-to-audio-based metric that measures the amount of motion cues in the generated video to reconstruct the original audio. Experiments on AVSync15 and The Greatest Hits datasets demonstrate that Syncphony outperforms existing methods in both synchronization accuracy and visual quality. Project page is available at: https://jibin86.github.io/syncphony_project_page
- Abstract(参考訳): テキスト・トゥ・ビデオと画像・ビデオ生成は、視覚的品質を急速に向上させたが、動きの正確なタイミングを制御することにはまだ限界がある。
対照的に、音声は映像の動きに合わせて時間的手がかりを提供するため、時間的に制御された映像生成には有望な条件となる。
しかし、既存のオーディオ・トゥ・ビデオ(A2V)モデルは、間接的条件付け機構や時間的モデリング能力の制限による微細な同期に苦慮している。
380x640の解像度、24fpsのビデオが多様な音声入力と同期するSyncphonyを提案する。
提案手法は,事前学習したビデオバックボーン上に構築され,(1)ハイモーション領域での学習を重視したモーションアウェア・ロス,(2)オーディオ・シンク・ガイダンス,(2)オーディオ・レイヤを使わずに視覚的に整列したオフシンク・モデルを用いて全モデルをガイドするオーディオ・シンク・ガイダンス,の2つの重要なコンポーネントが組み込まれている。
同期性を評価するために,生成したビデオのモーションキューの量を計測し,元の音声を再構成するCycleSyncを提案する。
AVSync15とThe Greatest Hitsデータセットの実験では、Syncphonyは同期精度と視覚的品質の両方で既存のメソッドよりも優れています。
プロジェクトページは、https://jibin86.github.io/syncphony_project_pageで公開されている。
関連論文リスト
- MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。
MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。
MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:55Z) - ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity [12.848371604063168]
本稿では,V2A生成モデルであるMaskVATを提案する。
提案手法は,高品質なオーディオ・ビジュアル特徴とシーケンス・ツー・シーケンス並列構造を組み合わせることで,高い同期性が得られることを示す。
論文 参考訳(メタデータ) (2024-07-15T01:49:59Z) - FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds [14.636030346325578]
我々は,ビデオと同期する高品質な音響効果の自動生成であるNeural Foleyについて検討し,没入型音声視覚体験を実現する。
本稿では,高品質な音声生成を実現するために,事前学習されたテキスト・音声モデルを活用する新しいフレームワークであるFoleyCrafterを提案する。
FoleyCrafterの特筆すべき利点は、テキストプロンプトとの互換性である。
論文 参考訳(メタデータ) (2024-07-01T17:35:56Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - Sparse in Space and Time: Audio-visual Synchronisation with Trainable
Selectors [103.21152156339484]
本研究の目的は,一般映像の「野生」音声・視覚同期である。
我々は4つのコントリビューションを行う: (i) スパース同期信号に必要な長時間の時間的シーケンスを処理するために、'セレクタ'を利用するマルチモーダルトランスモデルを設計する。
音声やビデオに使用される圧縮コーデックから生じるアーティファクトを識別し、トレーニングにおいてオーディオ視覚モデルを用いて、同期タスクを人工的に解くことができる。
論文 参考訳(メタデータ) (2022-10-13T14:25:37Z) - End to End Lip Synchronization with a Temporal AutoEncoder [95.94432031144716]
ビデオ中の唇の動きをオーディオストリームと同期させる問題について検討する。
両領域再帰型ニューラルネットワークを用いて最適アライメントを求める。
アプリケーションとして、既存のビデオストリームとテキストから音声までの音声を強力にアライメントする能力を実証する。
論文 参考訳(メタデータ) (2022-03-30T12:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。