論文の概要: Face-to-Face: A Video Dataset for Multi-Person Interaction Modeling
- arxiv url: http://arxiv.org/abs/2603.14794v1
- Date: Mon, 16 Mar 2026 03:50:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.035938
- Title: Face-to-Face: A Video Dataset for Multi-Person Interaction Modeling
- Title(参考訳): Face-to-Face:マルチパーソンインタラクションモデリングのためのビデオデータセット
- Authors: Ernie Chu, Vishal M. Patel,
- Abstract要約: 我々は2人のトークショー交換の70時間14kclipデータセットであるtextbfFace-to-Face with Jimmy Fallon (F2F-JF)を紹介した。
半自動パイプラインは、多人数追跡、音声ダイアリゼーション、軽量な人間の検証を組み合わせて、時間的に整列したホスト/ゲストトラックを抽出する。
- 参考スコア(独自算出の注目度): 53.176242285107485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modeling the reactive tempo of human conversation remains difficult because most audio-visual datasets portray isolated speakers delivering short monologues. We introduce \textbf{Face-to-Face with Jimmy Fallon (F2F-JF)}, a 70-hour, 14k-clip dataset of two-person talk-show exchanges that preserves the sequential dependency between a guest turn and the host's response. A semi-automatic pipeline combines multi-person tracking, speech diarization, and lightweight human verification to extract temporally aligned host/guest tracks with tight crops and metadata that are ready for downstream modeling. We showcase the dataset with a reactive, speech-driven digital avatar task in which the host video during $[t_1,t_2]$ is generated from their audio plus the guest's preceding video during $[t_0,t_1]$. Conditioning a MultiTalk-style diffusion model on this cross-person visual context yields small but consistent Emotion-FID and FVD gains while preserving lip-sync quality relative to an audio-only baseline. The dataset, preprocessing recipe, and baseline together provide an end-to-end blueprint for studying dyadic, sequential behavior, which we expand upon throughout the paper. Dataset and code will be made publicly available.
- Abstract(参考訳): 人間の会話の反応テンポのモデル化は、ほとんどのオーディオ・ビジュアルデータセットは、短いモノローグを提供する独立した話者を描いているため、依然として難しいままである。
本稿では,ゲストターンとホストの応答の逐次的依存性を保持する2人のトークショー交換の70時間14kclipデータセットである,Jimmy Fallon (F2F-JF)} を用いた textbf{face-to-Face を導入する。
半自動パイプラインは、マルチパーソントラッキング、音声ダイアリゼーション、軽量な人間の検証を組み合わせることで、ダウンストリームモデリングの準備ができている厳密な作物とメタデータで、時間的に整列したホスト/ゲストトラックを抽出する。
このデータセットは、音声から[t_1,t_2]$のホストビデオと、[t_0,t_1]$のゲストビデオを生成する。
この対人的な視覚的文脈でMultiTalkスタイルの拡散モデルを条件にすると、音声のみのベースラインに対してリップシンク品質を保ちながら、感情-FIDとFVDの利得は小さいが一貫性がある。
データセット、前処理のレシピ、ベースラインは、紙全体に拡大するダイアディックなシーケンシャルな振る舞いを研究するために、エンドツーエンドの青写真を提供する。
データセットとコードは公開されます。
関連論文リスト
- Multi-human Interactive Talking Dataset [20.920129008402718]
マルチヒューマン音声ビデオ生成に特化して設計された大規模データセットであるMITを紹介する。
得られたデータセットは、12時間の高解像度映像で構成され、それぞれ2〜4人の話者を特徴とする。
マルチスピーカーシナリオにおける自然な会話のダイナミクスを捉え、インタラクティブな視覚行動を研究するための豊富なリソースを提供する。
論文 参考訳(メタデータ) (2025-08-05T03:54:18Z) - SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation [45.27083162088965]
SpeakerVid-5Mは、オーディオヴィジュアルな対話型仮想人間生成のために設計された最初の大規模で高品質なデータセットである。
合計8,743時間以上、SpeakerVid-5Mは520万本以上の人間の肖像画のビデオクリップを収録している。
論文 参考訳(メタデータ) (2025-07-14T02:22:47Z) - OmniResponse: Online Multimodal Conversational Response Generation in Dyadic Interactions [62.19092662469285]
Online Multimodal Conversational Response Generation (OMCRG) は、オンラインの音声と非言語からのフィードバックを同時生成する新しいタスクである。
我々は,OmniResponseを提案する。OmniResponseはマルチモーダル大言語モデル(MLLM)であり,正確なマルチモーダルリスナー応答を自動回帰的に生成する。
ResponseNetは、696の詳細なダイアディックインタラクションのデータセットで、同期化された分割画面ビデオ、マルチチャンネルオーディオ、トランスクリプト、注釈付き顔行動が特徴です。
論文 参考訳(メタデータ) (2025-05-27T20:12:46Z) - Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。
追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。
音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文 参考訳(メタデータ) (2025-03-19T18:40:45Z) - InterAct: Capture and Modelling of Realistic, Expressive and Interactive Activities between Two Persons in Daily Scenarios [12.300105542672163]
我々は、2人の人物がシーケンス全体にわたって現実的なシナリオを実行する241のモーションシーケンスをキャプチャする。
両方の人の音声、身体の動き、表情はすべて、私たちのデータセットでキャプチャされます。
また,音声のみから2人の対話的動きを直接推定する拡散モデルに基づく最初のアプローチを示す。
論文 参考訳(メタデータ) (2024-05-19T22:35:02Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization [38.64540967776744]
Diff2Lip(ディフ2リップ)は、これらの特性を保ちながら唇の同期を行うことができる、オーディオ条件の拡散ベースモデルである。
本稿では,Voxceleb2 と LRW のデータセット上で,再構成(音声-ビデオ入力)とクロス設定(音声-ビデオ入力)の両方について結果を示す。
論文 参考訳(メタデータ) (2023-08-18T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。