論文の概要: TalkVerse: Democratizing Minute-Long Audio-Driven Video Generation
- arxiv url: http://arxiv.org/abs/2512.14938v1
- Date: Tue, 16 Dec 2025 22:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.797139
- Title: TalkVerse: Democratizing Minute-Long Audio-Driven Video Generation
- Title(参考訳): TalkVerse:1分間のオーディオ駆動ビデオ生成を民主化
- Authors: Zhenzhi Wang, Jian Wang, Ke Ma, Dahua Lin, Bing Zhou,
- Abstract要約: 本研究では,音声駆動音声ビデオ生成のための大規模オープンコーパスであるTalkVerseを紹介する。
TalkVerseは230万の高解像度(720p/1080p)のオーディオビデオ同期クリップを提供する。
これらは透明なパイプラインを通じて60k時間以上のビデオから収集される。
- 参考スコア(独自算出の注目度): 45.08904139559434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce TalkVerse, a large-scale, open corpus for single-person, audio-driven talking video generation designed to enable fair, reproducible comparison across methods. While current state-of-the-art systems rely on closed data or compute-heavy models, TalkVerse offers 2.3 million high-resolution (720p/1080p) audio-video synchronized clips totaling 6.3k hours. These are curated from over 60k hours of video via a transparent pipeline that includes scene-cut detection, aesthetic assessment, strict audio-visual synchronization checks, and comprehensive annotations including 2D skeletons and structured visual/audio-style captions. Leveraging TalkVerse, we present a reproducible 5B DiT baseline built on Wan2.2-5B. By utilizing a video VAE with a high downsampling ratio and a sliding window mechanism with motion-frame context, our model achieves minute-long generation with low drift. It delivers comparable lip-sync and visual quality to the 14B Wan-S2V model but with 10$\times$ lower inference cost. To enhance storytelling in long videos, we integrate an MLLM director to rewrite prompts based on audio and visual cues. Furthermore, our model supports zero-shot video dubbing via controlled latent noise injection. We open-source the dataset, training recipes, and 5B checkpoints to lower barriers for research in audio-driven human video generation. Project Page: https://zhenzhiwang.github.io/talkverse/
- Abstract(参考訳): 本研究では,大規模オープンコーパスであるTalkVerseを紹介した。
現在の最先端システムはクローズドデータや計算量の多いモデルに依存しているが、TalkVerseは230万の高解像度(720p/1080p)のオーディオビデオ同期クリップを提供している。
これらは、シーンカットの検出、美的評価、厳密なオーディオと視覚の同期チェック、そして2Dスケルトンや構造化された視覚/オーディオスタイルのキャプションを含む包括的なアノテーションを含む透明なパイプラインを通じて60k時間以上のビデオからキュレーションされる。
TalkVerseを活用して、Wan2.2-5B上に構築された再現可能な5B DiTベースラインを示す。
高ダウンサンプリング比の動画VAEと、モーションフレームコンテキストのスライドウインドウ機構を利用することで、ドリフトの少ない分長生成を実現する。
14B Wan-S2Vモデルと同等のリップシンクと視覚的品質を提供するが、10$\times$低い推論コストがある。
長編ビデオにおけるストーリーテリングを強化するため,MLLMディレクタを統合し,音声および視覚的手がかりに基づいたプロンプトの書き直しを行う。
さらに,本モデルでは遅延ノイズ注入によるゼロショットビデオダビングもサポートしている。
我々は、データセット、トレーニングレシピ、および5Bチェックポイントをオープンソース化し、オーディオ駆動型ヒューマンビデオ生成の研究の障壁を低くする。
Project Page: https://zhenzhiwang.github.io/talkverse/
関連論文リスト
- VABench: A Comprehensive Benchmark for Audio-Video Generation [22.00633729850902]
VABenchは、同期オーディオビデオ生成の機能を評価するために設計されたベンチマークフレームワークである。
タスクタイプは、text-to-audio-video (T2AV)、 Image-to-audio-video (I2AV)、ステレオオーディオビデオ生成の3種類である。
VABenchは、動物、人間の音、音楽、環境音、同期物理音、複雑なシーン、バーチャルワールドの7つの主要なコンテンツカテゴリをカバーしている。
論文 参考訳(メタデータ) (2025-12-10T03:57:29Z) - Democratizing High-Fidelity Co-Speech Gesture Video Generation [25.34048359399198]
Co-Speechジェスチャビデオ生成は、話者のリアルでオーディオに整合したビデオを合成することを目的としており、顔の表情と身体のジェスチャーが同期されている。
本研究では,2次元フルボディスケルトンを視覚出力で音声信号をブリッジする効率的な補助条件として利用するフレームワークを提案する。
CSG-405は,71種類の音声に対して405時間の高解像度映像を収録した最初の公開データセットである。
論文 参考訳(メタデータ) (2025-07-09T13:02:12Z) - Aligned Better, Listen Better for Audio-Visual Large Language Models [21.525317311280205]
ビデオには本質的に音声が含まれており、視覚に情報を提供する。
ビデオ大言語モデル(ビデオ-LLM)は多くのオーディオ中心の設定に遭遇する。
既存のモデルは、音声情報を利用するのに欠陥があり、理解と幻覚が弱い。
論文 参考訳(メタデータ) (2025-04-02T18:47:09Z) - Audio-visual training for improved grounding in video-text LLMs [1.9320359360360702]
本稿では,音声視覚入力を明示的に処理するモデルアーキテクチャを提案する。
我々は、ビデオインストラクションチューニングデータセットからオーディオデータと視覚データの両方でモデルをトレーニングする。
音声-視覚モデルのより良い評価のために、人間による注釈付きベンチマークデータセットもリリースする。
論文 参考訳(メタデータ) (2024-07-21T03:59:14Z) - TAVGBench: Benchmarking Text to Audible-Video Generation [44.67058949063691]
可聴映像生成ベンチマーク(TAVGBench)のための包括的テキストを開発する。
TAVGBenchには170万本以上のクリップがあり、総時間は11.8000時間である。
音声とビデオの両方のコンテンツについて、各ビデオが詳細な記述を確実にするための自動可聴アノテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T17:36:03Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound [103.28102473127748]
長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。
私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。
我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
論文 参考訳(メタデータ) (2022-04-06T14:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。