論文の概要: Scaling Up Audio-Synchronized Visual Animation: An Efficient Training Paradigm
- arxiv url: http://arxiv.org/abs/2508.03955v1
- Date: Tue, 05 Aug 2025 22:44:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.467898
- Title: Scaling Up Audio-Synchronized Visual Animation: An Efficient Training Paradigm
- Title(参考訳): オーディオ同期型ビジュアルアニメーションのスケールアップ - 効果的なトレーニングパラダイム
- Authors: Lin Zhang, Zefan Cai, Yufan Zhou, Shentong Mo, Jinhong Lin, Cheng-En Wu, Yibing Wei, Yijing Zhang, Ruiyi Zhang, Wen Xiao, Tong Sun, Junjie Hu, Pedro Morgado,
- Abstract要約: そこで本研究では,音声同期型ビジュアルアニメーションを,豊富なノイズのあるビデオでスケールアップするための,効率的な2段階トレーニングパラダイムを提案する。
ステージ1では,事前学習のための大規模ビデオを自動的にキュレートし,多様だが不完全なオーディオ映像アライメントを学習する。
ステージ2では、手作業による高品質な例でモデルを微調整するが、小規模でしかなく、必要な人的労力を大幅に削減する。
- 参考スコア(独自算出の注目度): 45.95521091275734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in audio-synchronized visual animation enable control of video content using audios from specific classes. However, existing methods rely heavily on expensive manual curation of high-quality, class-specific training videos, posing challenges to scaling up to diverse audio-video classes in the open world. In this work, we propose an efficient two-stage training paradigm to scale up audio-synchronized visual animation using abundant but noisy videos. In stage one, we automatically curate large-scale videos for pretraining, allowing the model to learn diverse but imperfect audio-video alignments. In stage two, we finetune the model on manually curated high-quality examples, but only at a small scale, significantly reducing the required human effort. We further enhance synchronization by allowing each frame to access rich audio context via multi-feature conditioning and window attention. To efficiently train the model, we leverage pretrained text-to-video generator and audio encoders, introducing only 1.9\% additional trainable parameters to learn audio-conditioning capability without compromising the generator's prior knowledge. For evaluation, we introduce AVSync48, a benchmark with videos from 48 classes, which is 3$\times$ more diverse than previous benchmarks. Extensive experiments show that our method significantly reduces reliance on manual curation by over 10$\times$, while generalizing to many open classes.
- Abstract(参考訳): 音声同期ビジュアルアニメーションの最近の進歩は、特定のクラスの音声を用いた映像コンテンツの制御を可能にする。
しかし、既存の手法は高品質でクラス固有のトレーニングビデオの高価な手作業によるキュレーションに大きく依存しており、オープンな世界で様々なオーディオビデオクラスにスケールアップする上での課題となっている。
そこで本研究では,多人数だがノイズの多いビデオを用いて,音声同期型ビジュアルアニメーションをスケールアップするための,効率的な2段階学習パラダイムを提案する。
ステージ1では,事前学習のための大規模ビデオを自動的にキュレートし,多様だが不完全なオーディオ映像アライメントを学習する。
ステージ2では、手作業による高品質な例でモデルを微調整するが、小規模でしかなく、必要な人的労力を大幅に削減する。
我々はさらに、多機能条件付けとウィンドウアテンションにより、各フレームがリッチなオーディオコンテキストにアクセスできるようにすることにより、同期をさらに強化する。
このモデルを効率的に訓練するために,事前訓練されたテキスト・ツー・ビデオ・ジェネレータとオーディオ・エンコーダを利用する。
AVSync48は48クラスのビデオで、従来のベンチマークよりも3$\times$より多様である。
実験により,手作業によるキュレーションへの依存度を10$\times$以上削減し,多くのオープンクラスに一般化した。
関連論文リスト
- EasyGenNet: An Efficient Framework for Audio-Driven Gesture Video Generation Based on Diffusion Model [22.286624353800377]
本研究では,2次元人間の骨格を中間動作表現として用い,音声合成のための新しいパイプラインを提案する。
実験の結果,本手法は既存のGAN法および拡散法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-04-11T08:19:18Z) - MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。
MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。
MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:55Z) - Read, Watch and Scream! Sound Generation from Text and Video [23.990569918960315]
ビデオはテキスト音声生成モデルの条件制御として機能する。
我々は、ビデオ制御の統合のために、良好なパフォーマンスのテキスト・トゥ・オーディオ・モデルを用いる。
本手法は, 品質, 制御性, 訓練効率の面で優位性を示す。
論文 参考訳(メタデータ) (2024-07-08T01:59:17Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文 参考訳(メタデータ) (2023-08-31T15:41:40Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Modality Dropout for Improved Performance-driven Talking Faces [5.6856010789797296]
本稿では,音響情報と視覚情報の両方を用いて,アニメーション・フェイスを駆動するための新しいディープラーニング手法について述べる。
主観的テストを用いて,1) 映像のみのアプローチによる音声視覚駆動型アニメーションの改善,2) モダリティ・ドロップアウトの導入による音声関連顔の動きのアニメーションの改善を実証する。
論文 参考訳(メタデータ) (2020-05-27T19:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。