論文の概要: TalkCuts: A Large-Scale Dataset for Multi-Shot Human Speech Video Generation
- arxiv url: http://arxiv.org/abs/2510.07249v1
- Date: Wed, 08 Oct 2025 17:16:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.659611
- Title: TalkCuts: A Large-Scale Dataset for Multi-Shot Human Speech Video Generation
- Title(参考訳): TalkCuts: マルチショット音声生成のための大規模データセット
- Authors: Jiaben Chen, Zixin Wang, Ailing Zeng, Yang Fu, Xueyang Yu, Siyuan Cen, Julian Tanke, Yihang Chen, Koichi Saito, Yuki Mitsufuji, Chuang Gan,
- Abstract要約: 本研究では,マルチショット音声ビデオ生成を支援する大規模データセットであるTalkCutsを提案する。
TalkCutsは、クローズアップ、ハーフボディ、フルボディビューを含む様々なカメラショットを備えた、500時間以上の高品質な人間の音声ビデオクリップを提供する。
このデータセットには、詳細なテキスト記述、2Dキーポイント、3D SMPL-Xモーションアノテーションが含まれ、10k以上のアイデンティティをカバーし、マルチモーダル学習と評価を可能にする。
- 参考スコア(独自算出の注目度): 76.48551690189406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present TalkCuts, a large-scale dataset designed to facilitate the study of multi-shot human speech video generation. Unlike existing datasets that focus on single-shot, static viewpoints, TalkCuts offers 164k clips totaling over 500 hours of high-quality human speech videos with diverse camera shots, including close-up, half-body, and full-body views. The dataset includes detailed textual descriptions, 2D keypoints and 3D SMPL-X motion annotations, covering over 10k identities, enabling multimodal learning and evaluation. As a first attempt to showcase the value of the dataset, we present Orator, an LLM-guided multi-modal generation framework as a simple baseline, where the language model functions as a multi-faceted director, orchestrating detailed specifications for camera transitions, speaker gesticulations, and vocal modulation. This architecture enables the synthesis of coherent long-form videos through our integrated multi-modal video generation module. Extensive experiments in both pose-guided and audio-driven settings show that training on TalkCuts significantly enhances the cinematographic coherence and visual appeal of generated multi-shot speech videos. We believe TalkCuts provides a strong foundation for future work in controllable, multi-shot speech video generation and broader multimodal learning.
- Abstract(参考訳): 本研究では,マルチショット音声映像生成を支援する大規模データセットであるTalkCutsを提案する。
シングルショット、静的な視点に焦点を当てた既存のデータセットとは異なり、TalkCutsは、クローズアップ、ハーフボディ、フルボディビューを含む様々なカメラショットを含む、500時間以上の高品質な人間のスピーチビデオの合計164Kクリップを提供する。
このデータセットには、詳細なテキスト記述、2Dキーポイント、3D SMPL-Xモーションアノテーションが含まれ、10k以上のアイデンティティをカバーし、マルチモーダル学習と評価を可能にする。
データセットの価値を示すための最初の試みとして,LLM誘導型マルチモーダル生成フレームワークであるOratorを,多面的ディレクタとして機能し,カメラトランジション,話者のジェスチャー,発声変調の詳細な仕様を整理した,シンプルなベースラインとして紹介する。
このアーキテクチャにより、統合マルチモーダルビデオ生成モジュールによるコヒーレントな長ビデオの合成が可能となる。
ポーズ誘導と音声駆動の両方での広範囲な実験により、TalkCutsでのトレーニングは、生成されたマルチショット音声ビデオの撮影コヒーレンスと視覚的魅力を著しく向上させることが示された。
TalkCutsは、制御可能でマルチショットな音声ビデオ生成とより広範なマルチモーダル学習において、将来的な研究の基盤となると信じています。
関連論文リスト
- Multi-human Interactive Talking Dataset [20.920129008402718]
マルチヒューマン音声ビデオ生成に特化して設計された大規模データセットであるMITを紹介する。
得られたデータセットは、12時間の高解像度映像で構成され、それぞれ2〜4人の話者を特徴とする。
マルチスピーカーシナリオにおける自然な会話のダイナミクスを捉え、インタラクティブな視覚行動を研究するための豊富なリソースを提供する。
論文 参考訳(メタデータ) (2025-08-05T03:54:18Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - VideoPoet: A Large Language Model for Zero-Shot Video Generation [78.57171527944774]
VideoPoetは、高品質なビデオと一致するオーディオを合成できる言語モデルである。
VideoPoetはマルチモーダル入力を処理するデコーダのみのトランスフォーマーアーキテクチャを採用している。
論文 参考訳(メタデータ) (2023-12-21T18:46:41Z) - Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文 参考訳(メタデータ) (2020-12-14T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。