論文の概要: Multi-human Interactive Talking Dataset
- arxiv url: http://arxiv.org/abs/2508.03050v1
- Date: Tue, 05 Aug 2025 03:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.763216
- Title: Multi-human Interactive Talking Dataset
- Title(参考訳): マルチヒューマン対話型発話データセット
- Authors: Zeyu Zhu, Weijia Wu, Mike Zheng Shou,
- Abstract要約: マルチヒューマン音声ビデオ生成に特化して設計された大規模データセットであるMITを紹介する。
得られたデータセットは、12時間の高解像度映像で構成され、それぞれ2〜4人の話者を特徴とする。
マルチスピーカーシナリオにおける自然な会話のダイナミクスを捉え、インタラクティブな視覚行動を研究するための豊富なリソースを提供する。
- 参考スコア(独自算出の注目度): 20.920129008402718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing studies on talking video generation have predominantly focused on single-person monologues or isolated facial animations, limiting their applicability to realistic multi-human interactions. To bridge this gap, we introduce MIT, a large-scale dataset specifically designed for multi-human talking video generation. To this end, we develop an automatic pipeline that collects and annotates multi-person conversational videos. The resulting dataset comprises 12 hours of high-resolution footage, each featuring two to four speakers, with fine-grained annotations of body poses and speech interactions. It captures natural conversational dynamics in multi-speaker scenario, offering a rich resource for studying interactive visual behaviors. To demonstrate the potential of MIT, we furthur propose CovOG, a baseline model for this novel task. It integrates a Multi-Human Pose Encoder (MPE) to handle varying numbers of speakers by aggregating individual pose embeddings, and an Interactive Audio Driver (IAD) to modulate head dynamics based on speaker-specific audio features. Together, these components showcase the feasibility and challenges of generating realistic multi-human talking videos, establishing MIT as a valuable benchmark for future research. The code is avalibale at: https://github.com/showlab/Multi-human-Talking-Video-Dataset.
- Abstract(参考訳): 会話ビデオ生成に関する既存の研究は、主に一人称モノローグや孤立した顔のアニメーションに焦点を合わせており、現実的なマルチヒューマンインタラクションへの適用性に制限されている。
このギャップを埋めるために、マルチヒューマン音声ビデオ生成に特化した大規模データセットであるMITを紹介します。
そこで我々は,多人数会話ビデオの収集と注釈付けを行う自動パイプラインを開発した。
得られたデータセットは、12時間の高解像度映像で構成され、それぞれ2〜4人の話者が登場し、身体のポーズや音声の相互作用の微妙な注釈が付けられている。
マルチスピーカーシナリオにおける自然な会話のダイナミクスを捉え、インタラクティブな視覚行動を研究するための豊富なリソースを提供する。
MITの可能性を実証するため、我々はこの新しいタスクのベースラインモデルであるCovOGを提案する。
MPE(Multi-Human Pose Encoder)と、個別のポーズ埋め込みを集約することで様々な話者を扱うためのMPE(Multi-Human Pose Encoder)と、話者固有のオーディオ特徴に基づいて頭部のダイナミクスを変調するInteractive Audio Driver(IAD)を統合している。
これらのコンポーネントは、現実的なマルチヒューマントーキービデオの実現可能性と課題を示し、将来の研究のための貴重なベンチマークとしてMITを確立する。
コードは、https://github.com/showlab/Multi- Human-Talking-Video-Dataset.comで公開されている。
関連論文リスト
- Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。
このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。
そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文 参考訳(メタデータ) (2025-06-27T18:09:49Z) - Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation [34.15566431966277]
本稿では,マルチパーソン会話ビデオ生成という新しい課題を提案する。
マルチパーソン世代における課題に対処するための新しいフレームワークであるMultiTalkを導入する。
論文 参考訳(メタデータ) (2025-05-28T17:57:06Z) - MM-Conv: A Multi-modal Conversational Dataset for Virtual Humans [4.098892268127572]
物理シミュレーター(AI2-THOR)内の参加者間の会話を記録するためにVRヘッドセットを用いた新しいデータセットを提案する。
我々の主な目的は、参照設定にリッチな文脈情報を組み込むことで、共同音声ジェスチャ生成の分野を拡張することである。
論文 参考訳(メタデータ) (2024-09-30T21:51:30Z) - CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations [97.75037148056367]
CoVoMixは、ゼロショット、人間ライク、マルチスピーカー、マルチラウンド対話音声生成のための新しいモデルである。
対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
論文 参考訳(メタデータ) (2024-04-10T02:32:58Z) - Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model [2.827070255699381]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。
生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文 参考訳(メタデータ) (2023-08-11T08:03:28Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Audio-Visual Fusion Layers for Event Type Aware Video Recognition [86.22811405685681]
マルチタスク学習方式において,個別のイベント固有のレイヤによるマルチセンサ統合問題に対処する新しいモデルを提案する。
我々のネットワークは単一のラベルで表現されているが、与えられたビデオを表現するために、さらに真のマルチラベルを出力できる。
論文 参考訳(メタデータ) (2022-02-12T02:56:22Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。