論文の概要: TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis
- arxiv url: http://arxiv.org/abs/2508.13618v1
- Date: Tue, 19 Aug 2025 08:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.84754
- Title: TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis
- Title(参考訳): TalkVid: 音声駆動型トーキングヘッド合成のための大規模分散データセット
- Authors: Shunian Chen, Hejin Huang, Yexin Liu, Zihan Ye, Pengcheng Chen, Chenghao Zhu, Michael Guan, Rongsheng Wang, Junying Chen, Guanbin Li, Ser-Nam Lim, Harry Yang, Benyou Wang,
- Abstract要約: 7729のユニークなスピーカーから1244時間のビデオを含む、大規模で高品質で多様なデータセットであるTalkVidを紹介した。
TalkVidは、動作の安定性、美的品質、顔のディテールを厳格にフィルタする、原則付き多段階自動パイプラインを通じてキュレートされる。
TalkVid-Benchは、500クリップの階層化された評価セットで、重要な人口統計学と言語学の軸間で慎重にバランスを取ります。
- 参考スコア(独自算出の注目度): 74.31705485094096
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Audio-driven talking head synthesis has achieved remarkable photorealism, yet state-of-the-art (SOTA) models exhibit a critical failure: they lack generalization to the full spectrum of human diversity in ethnicity, language, and age groups. We argue that this generalization gap is a direct symptom of limitations in existing training data, which lack the necessary scale, quality, and diversity. To address this challenge, we introduce TalkVid, a new large-scale, high-quality, and diverse dataset containing 1244 hours of video from 7729 unique speakers. TalkVid is curated through a principled, multi-stage automated pipeline that rigorously filters for motion stability, aesthetic quality, and facial detail, and is validated against human judgments to ensure its reliability. Furthermore, we construct and release TalkVid-Bench, a stratified evaluation set of 500 clips meticulously balanced across key demographic and linguistic axes. Our experiments demonstrate that a model trained on TalkVid outperforms counterparts trained on previous datasets, exhibiting superior cross-dataset generalization. Crucially, our analysis on TalkVid-Bench reveals performance disparities across subgroups that are obscured by traditional aggregate metrics, underscoring its necessity for future research. Code and data can be found in https://github.com/FreedomIntelligence/TalkVid
- Abstract(参考訳): 音声駆動音声ヘッド合成は驚くべきフォトリアリズムを実現しているが、最先端のSOTA(State-of-the-art)モデルは、民族、言語、年齢グループにおける人間の多様性の完全なスペクトルへの一般化を欠いている。
この一般化ギャップは、必要規模、品質、多様性に欠ける既存のトレーニングデータの制限の直接的な症状である、と我々は主張する。
この課題に対処するために、7729のユニークなスピーカーから1244時間のビデオを含む、大規模で高品質で多様なデータセットであるTalkVidを紹介した。
TalkVidは、動作の安定性、美的品質、顔のディテールを厳格にフィルタする、原則付き多段階自動パイプラインを通じてキュレートされ、信頼性を確保するために人間の判断に対して検証される。
さらに,500クリップの階層化された評価セットであるTalkVid-Benchを,重要な人口統計学的および言語学的軸間で正確にバランスよく構築し,リリースする。
実験により、TalkVidでトレーニングされたモデルは、以前のデータセットでトレーニングされたモデルよりも優れ、より優れたクロスデータセットの一般化を示すことが示された。
重要な点として、TalkVid-Benchの分析では、従来の集約メトリクスによって隠蔽されているサブグループ間のパフォーマンス格差が明らかとなり、今後の研究の必要性が浮き彫りになっている。
コードとデータはhttps://github.com/FreedomIntelligence/TalkVidにある。
関連論文リスト
- JWB-DH-V1: Benchmark for Joint Whole-Body Talking Avatar and Speech Generation Version 1 [6.4645943969421875]
本稿では, 音声合成バージョンI(JWB-DH-V1)について紹介する。
200万のビデオサンプルに1万のユニークなアイデンティティを持つ大規模なマルチモーダルデータセットと、全身のアニマタブルアバターのジョイントオーディオビデオ生成を評価するための評価プロトコルを備える。
我々のSOTAモデルの評価では、顔/手中心と全身のパフォーマンスの相違が一貫した。
論文 参考訳(メタデータ) (2025-07-28T16:47:44Z) - SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation [45.27083162088965]
SpeakerVid-5Mは、オーディオヴィジュアルな対話型仮想人間生成のために設計された最初の大規模で高品質なデータセットである。
合計8,743時間以上、SpeakerVid-5Mは520万本以上の人間の肖像画のビデオクリップを収録している。
論文 参考訳(メタデータ) (2025-07-14T02:22:47Z) - UniTalk: Towards Universal Active Speaker Detection in Real World Scenarios [22.15198429228792]
アクティブな話者検出のタスクに特化して設計された新しいデータセットであるUniTalkを提案する。
UniTalkは、多様で困難な現実世界の状況に特化している。
ビデオは44.5時間以上、フレームレベルのアクティブな話者アノテーションが48,693の話者IDにまたがっている。
論文 参考訳(メタデータ) (2025-05-28T04:08:59Z) - Language Barriers: Evaluating Cross-Lingual Performance of CNN and Transformer Architectures for Speech Quality Estimation [9.286959744769792]
目的語品質モデルの言語間一般化は大きな課題である。
主に英語データに基づいて訓練されたモデルは、異なる音素、音節、韻律の特徴を持つ言語に一般化するのに苦労する可能性がある。
本研究では,NISQA,CNNベースモデル,変換器ベースオーディオスペクトログラム変換器(AST)モデルという2つの音声品質モデルの言語間性能について検討した。
論文 参考訳(メタデータ) (2025-02-18T16:22:43Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - ASR4REAL: An extended benchmark for speech models [19.348785785921446]
モデルにおけるバイアスや弱点の発見を目的とした,実生活条件に適合するベンチマークのセットを紹介する。
その結果,近年のモデルでは男女差がみられていないものの,アクセントによる重要なパフォーマンスの相違が見られることが判明した。
テストされたすべてのモデルは、会話音声でのテストでは、強いパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2021-10-16T14:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。