論文の概要: SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation
- arxiv url: http://arxiv.org/abs/2507.09862v1
- Date: Mon, 14 Jul 2025 02:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.170298
- Title: SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation
- Title(参考訳): SpeakerVid-5M: 視覚的対話型人間生成のための大規模高品質データセット
- Authors: Youliang Zhang, Zhaoyang Li, Duomin Wang, Jiahe Zhang, Deyu Zhou, Zixin Yin, Xili Dai, Gang Yu, Xiu Li,
- Abstract要約: SpeakerVid-5Mは、オーディオヴィジュアルな対話型仮想人間生成のために設計された最初の大規模で高品質なデータセットである。
合計8,743時間以上、SpeakerVid-5Mは520万本以上の人間の肖像画のビデオクリップを収録している。
- 参考スコア(独自算出の注目度): 45.27083162088965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of large-scale models has catalyzed significant breakthroughs in the digital human domain. These advanced methodologies offer high-fidelity solutions for avatar driving and rendering, leading academia to focus on the next major challenge: audio-visual dyadic interactive virtual human. To facilitate research in this emerging area, we present SpeakerVid-5M dataset, the first large-scale, high-quality dataset designed for audio-visual dyadic interactive virtual human generation. Totaling over 8,743 hours, SpeakerVid-5M contains more than 5.2 million video clips of human portraits. It covers diverse scales and interaction types, including monadic talking, listening, and dyadic conversations. Crucially, the dataset is structured along two key dimensions: interaction type and data quality. First, it is categorized into four types (dialogue branch, single branch, listening branch and multi-turn branch) based on the interaction scenario. Second, it is stratified into a large-scale pre-training subset and a curated, high-quality subset for Supervised Fine-Tuning (SFT). This dual structure accommodates a wide array of 2D virtual human tasks. In addition, we provide an autoregressive (AR)-based video chat baseline trained on this data, accompanied by a dedicated set of metrics and test data to serve as a benchmark VidChatBench for future work. Both the dataset and the corresponding data processing code will be publicly released. Project page: https://dorniwang.github.io/SpeakerVid-5M/
- Abstract(参考訳): 大規模モデルの急速な発展は、デジタル人間の領域において重要なブレークスルーを引き起こした。
これらの高度な手法は、アバターの運転とレンダリングのための高忠実なソリューションを提供する。
この新興分野の研究を容易にするために,音声視覚対話型バーチャルヒューマン生成のために設計された,最初の大規模かつ高品質なデータセットであるSpeakerVid-5Mデータセットを提案する。
合計8,743時間以上、SpeakerVid-5Mは520万本以上の人間の肖像画のビデオクリップを収録している。
モナディックな会話、聞き取り、ダイアディックな会話など、さまざまなスケールと相互作用のタイプをカバーしている。
重要なのは、データセットはインタラクションタイプとデータ品質の2つの重要な次元に沿って構成されていることだ。
まず、対話シナリオに基づいて4つのタイプ(対話ブランチ、単一ブランチ、リスニングブランチ、マルチターンブランチ)に分類される。
第2に、大規模な事前学習サブセットと、Supervised Fine-Tuning (SFT)のキュレートされた高品質サブセットに階層化される。
この二重構造は、幅広い2次元バーチャルヒューマンタスクに対応している。
さらに、このデータに基づいてトレーニングされた自動回帰(AR)ベースのビデオチャットベースラインと、将来の作業のためのベンチマークVidChatBenchとして機能する専用のメトリクスとテストデータを提供する。
データセットと対応するデータ処理コードの両方が公開される。
プロジェクトページ: https://dorniwang.github.io/SpeakerVid-5M/
関連論文リスト
- Perceiving and Acting in First-Person: A Dataset and Benchmark for Egocentric Human-Object-Human Interactions [110.43343503158306]
本稿では、手動支援タスクを視覚言語アクションフレームワークに組み込み、そのアシスタントは、自我中心のビジョンとコマンドに従ってインストラクターにサービスを提供する。
この設定の下で、我々は、マルチモーダルデータの11.4時間1.2Mフレームを持つ、最初の大規模人・物・人間のインタラクションデータセットであるInterVLAを達成した。
我々は,エゴセントリックな人の動き推定,相互作用合成,および包括的分析による相互作用予測に関する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2025-08-06T17:46:23Z) - Multi-human Interactive Talking Dataset [20.920129008402718]
マルチヒューマン音声ビデオ生成に特化して設計された大規模データセットであるMITを紹介する。
得られたデータセットは、12時間の高解像度映像で構成され、それぞれ2〜4人の話者を特徴とする。
マルチスピーカーシナリオにおける自然な会話のダイナミクスを捉え、インタラクティブな視覚行動を研究するための豊富なリソースを提供する。
論文 参考訳(メタデータ) (2025-08-05T03:54:18Z) - Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。
このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。
そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文 参考訳(メタデータ) (2025-06-27T18:09:49Z) - OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation [27.516068877910254]
大規模で高品質な人中心ビデオデータセットOpenHumanVidを紹介する。
まず、大規模で高品質なデータセットを組み込むことによって、生成された人間のビデオの評価基準を大幅に強化する。
第二に、高品質のビデオ出力を生成するためには、人間の外見、人間の動き、顔の動きとテキストの効果的なアライメントが不可欠である。
論文 参考訳(メタデータ) (2024-11-28T07:01:06Z) - InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot
Interactions [23.296139146133573]
言語あいまいさ下での対話型視覚グラウンドのための大規模データセットであるinvigを提示する。
我々のデータセットは、オープンな目標指向の曖昧さの対話を伴う520K以上の画像で構成されている。
私たちの知る限りでは、Invigデータセットは、オープンエンドのインタラクティブな視覚的グラウンドを解決するための、最初の大規模データセットです。
論文 参考訳(メタデータ) (2023-10-18T17:57:05Z) - DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z) - Enhancing Chat Language Models by Scaling High-quality Instructional
Conversations [91.98516412612739]
まず,UltraChatという,体系的に設計され,多様で,情報的,大規模な会話データセットを提供する。
我々の目標は、人間がAIアシスタントで持つであろう対話の幅を捉えることです。
我々はLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成する。
論文 参考訳(メタデータ) (2023-05-23T16:49:14Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - 2.5D Visual Relationship Detection [142.69699509655428]
2.5D視覚関係検出(2.5VRD)に関する研究
一般的なVRDとは異なり、2.5VRDは自我中心であり、カメラの視点をすべての2.5D関係の共通参照として利用する。
1k画像から512kオブジェクト間の220kの2.5d関係からなる新しいデータセットを作成する。
論文 参考訳(メタデータ) (2021-04-26T17:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。