論文の概要: DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation
- arxiv url: http://arxiv.org/abs/2602.23165v1
- Date: Thu, 26 Feb 2026 16:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.772297
- Title: DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation
- Title(参考訳): DyaDiT: 社会的に好適な義歯生成のための多モード拡散変換器
- Authors: Yichen Peng, Jyun-Ting Song, Siyeol Jung, Ruofan Liu, Haiyang Liu, Xuangeng Chu, Ruicong Liu, Erwin Wu, Hideki Koike, Kris Kitani,
- Abstract要約: 本稿では,Dyadic 音声信号から文脈的に適切な人間の動きを生成する多モード拡散変換器 DyaDiT を提案する。
DyaDiTは、ソーシャルコンテキストトークンをオプションで使用して、コンテキストに適した動作を生成する。
- 参考スコア(独自算出の注目度): 44.996033104017506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating realistic conversational gestures are essential for achieving natural, socially engaging interactions with digital humans. However, existing methods typically map a single audio stream to a single speaker's motion, without considering social context or modeling the mutual dynamics between two people engaging in conversation. We present DyaDiT, a multi-modal diffusion transformer that generates contextually appropriate human motion from dyadic audio signals. Trained on Seamless Interaction Dataset, DyaDiT takes dyadic audio with optional social-context tokens to produce context-appropriate motion. It fuses information from both speakers to capture interaction dynamics, uses a motion dictionary to encode motion priors, and can optionally utilize the conversational partner's gestures to produce more responsive motion. We evaluate DyaDiT on standard motion generation metrics and conduct quantitative user studies, demonstrating that it not only surpasses existing methods on objective metrics but is also strongly preferred by users, highlighting its robustness and socially favorable motion generation. Code and models will be released upon acceptance.
- Abstract(参考訳): リアルな会話ジェスチャを生成することは、デジタル人間との自然な社会的相互作用を達成するために不可欠である。
しかし、既存の手法では、社会的文脈や会話に関わる2人の間の相互ダイナミクスをモデル化することなく、単一の音声ストリームを単一の話者の動きにマッピングするのが一般的である。
本稿では,Dyadic 音声信号から文脈的に適切な人間の動きを生成する多モード拡散変換器 DyaDiT を提案する。
Seamless Interaction DatasetでトレーニングされたDyaDiTは、任意のソーシャルコンテキストトークンを備えたダイアディックオーディオを使用して、コンテキストに適した動作を生成する。
両方の話者からの情報を融合してインタラクションのダイナミクスをキャプチャし、モーション辞書を使って動きの先行情報をエンコードし、会話相手のジェスチャーを任意に利用してより応答性のある動きを生成する。
我々はDyaDiTを標準動作生成指標で評価し、客観的な測定基準で既存の手法を超えるだけでなく、ユーザから強く好まれることを示すとともに、その頑健さと社会的に有利な動作生成を強調した。
コードとモデルは受け入れ次第リリースされる。
関連論文リスト
- ViBES: A Conversational Agent with Behaviorally-Intelligent 3D Virtual Body [25.087113475162592]
ViBES(Voice in Behavioral Expression and Synchrony)は、言語と運動を共同で計画する対話型3Dエージェントである。
ViBESは、言語、韻律、運動が共同生成されるエージェント仮想体への「音声条件の運動生成」を越えている。
論文 参考訳(メタデータ) (2025-12-16T09:41:21Z) - MOSPA: Human Motion Generation Driven by Spatial Audio [83.31594478750682]
本稿では,多種多様で高品質な空間音声・動きデータを含む,空間音声駆動型人体運動データセットについて紹介する。
本研究では,身体運動と空間音声の関係を忠実に把握する,MOSPAと呼ばれるスパティアルオーディオによって駆動される人間の運動生成のためのフレームワークを開発する。
本手法は,本課題における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-16T06:33:11Z) - Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。
このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。
そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文 参考訳(メタデータ) (2025-06-27T18:09:49Z) - It Takes Two: Real-time Co-Speech Two-person's Interaction Generation via Reactive Auto-regressive Diffusion Model [34.94330722832987]
会話中の2文字の動的動きを合成するための音声駆動自動回帰システムを提案する。
我々の知る限りでは、オンライン方式で2文字の対話型フルボディモーションを生成できる最初のシステムである。
論文 参考訳(メタデータ) (2024-12-03T12:31:44Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - Freetalker: Controllable Speech and Text-Driven Gesture Generation Based
on Diffusion Models for Enhanced Speaker Naturalness [45.90256126021112]
我々は、自然発生(例えば、共音声ジェスチャー)と非自然発生(例えば、表彰台を動き回る)の両方を生成するための最初のフレームワークであるFreeTalkerを紹介する。
具体的には、音声によるジェスチャーとテキストによる動作の統一表現を用いた話者動作生成のための拡散モデルについて訓練する。
論文 参考訳(メタデータ) (2024-01-07T13:01:29Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。