論文の概要: Co$^{3}$Gesture: Towards Coherent Concurrent Co-speech 3D Gesture Generation with Interactive Diffusion
- arxiv url: http://arxiv.org/abs/2505.01746v1
- Date: Sat, 03 May 2025 08:51:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.25229
- Title: Co$^{3}$Gesture: Towards Coherent Concurrent Co-speech 3D Gesture Generation with Interactive Diffusion
- Title(参考訳): Co$^{3}$ Gesture: 対話拡散を用いたコヒーレントコンカレント3次元ジェスチャ生成を目指して
- Authors: Xingqun Qi, Yatian Wang, Hengyuan Zhang, Jiahao Pan, Wei Xue, Shanghang Zhang, Wenhan Luo, Qifeng Liu, Yike Guo,
- Abstract要約: Co$3$Gestureは、コヒーレントな同時音声ジェスチャー合成を可能にする新しいフレームワークである。
本稿では、2つの話者のジェスチャーシーケンス間の時間的関連表現をモデル化するための時間的相互作用モジュール(TIM)を提案する。
本手法は,新たに収集したGES-Interデータセットの最先端モデルよりも優れている。
- 参考スコア(独自算出の注目度): 42.421118899819106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating gestures from human speech has gained tremendous progress in animating virtual avatars. While the existing methods enable synthesizing gestures cooperated by individual self-talking, they overlook the practicality of concurrent gesture modeling with two-person interactive conversations. Moreover, the lack of high-quality datasets with concurrent co-speech gestures also limits handling this issue. To fulfill this goal, we first construct a large-scale concurrent co-speech gesture dataset that contains more than 7M frames for diverse two-person interactive posture sequences, dubbed GES-Inter. Additionally, we propose Co$^3$Gesture, a novel framework that enables coherent concurrent co-speech gesture synthesis including two-person interactive movements. Considering the asymmetric body dynamics of two speakers, our framework is built upon two cooperative generation branches conditioned on separated speaker audio. Specifically, to enhance the coordination of human postures with respect to corresponding speaker audios while interacting with the conversational partner, we present a Temporal Interaction Module (TIM). TIM can effectively model the temporal association representation between two speakers' gesture sequences as interaction guidance and fuse it into the concurrent gesture generation. Then, we devise a mutual attention mechanism to further holistically boost learning dependencies of interacted concurrent motions, thereby enabling us to generate vivid and coherent gestures. Extensive experiments demonstrate that our method outperforms the state-of-the-art models on our newly collected GES-Inter dataset. The dataset and source code are publicly available at \href{https://mattie-e.github.io/Co3/}{\textit{https://mattie-e.github.io/Co3/}}.
- Abstract(参考訳): 人間の発話からジェスチャーを生成することは仮想アバターのアニメーション化において大きな進歩を遂げている。
従来の手法では、個別のセルフトーキングによって協調したジェスチャーを合成できるが、双方向対話による同時ジェスチャーモデリングの実用性を見落としている。
さらに、同時音声ジェスチャーによる高品質なデータセットの欠如により、この問題への対処も制限される。
この目的を達成するために、我々はまず、GES-Interと呼ばれる多様な2人の対話的姿勢系列のための700万フレーム以上を含む大規模同時音声ジェスチャーデータセットを構築した。
さらに,コヒーレントな同時音声ジェスチャー合成を実現する新しいフレームワークであるCo$^3$Gestureを提案する。
2つの話者の非対称なボディダイナミクスを考慮すると、この枠組みは分離された話者音声に条件付けされた2つの協調生成部の上に構築される。
具体的には、対話相手と対話しながら、対応する話者音声に対する姿勢調整を強化するために、時間的相互作用モジュール(TIM)を提案する。
TIMは、2人の話者のジェスチャーシーケンス間の時間的関連表現をインタラクションガイダンスとして効果的にモデル化し、同時ジェスチャー生成に融合することができる。
そこで我々は,相互注意機構を考案し,対話した同時動作の学習依存性をさらに高め,鮮明で一貫性のあるジェスチャーを生成する。
大規模な実験により,本手法は新たに収集したGES-Interデータセットの最先端モデルよりも優れていることが示された。
データセットとソースコードは \href{https://mattie-e.github.io/Co3/}{\textit{https://mattie-e.github.io/Co3/}} で公開されている。
関連論文リスト
- HOP: Heterogeneous Topology-based Multimodal Entanglement for Co-Speech Gesture Generation [42.30003982604611]
共同音声ジェスチャーは、人間のコミュニケーションにおける音声の明瞭さと歩みを高める重要な非言語的手がかりである。
ジェスチャー動作, 音声リズム, テキストセマンティクスのヘテロジニアスな絡み合いを捕捉し, 共同音声ジェスチャ生成のためのHOPという新しい手法を提案する。
HOPは、より自然で表現力のある共同音声ジェスチャ生成を提供する最先端技術を実現している。
論文 参考訳(メタデータ) (2025-03-03T04:47:39Z) - It Takes Two: Real-time Co-Speech Two-person's Interaction Generation via Reactive Auto-regressive Diffusion Model [34.94330722832987]
会話中の2文字の動的動きを合成するための音声駆動自動回帰システムを提案する。
我々の知る限りでは、オンライン方式で2文字の対話型フルボディモーションを生成できる最初のシステムである。
論文 参考訳(メタデータ) (2024-12-03T12:31:44Z) - InterAct: Capture and Modelling of Realistic, Expressive and Interactive Activities between Two Persons in Daily Scenarios [12.300105542672163]
我々は、2人の人物がシーケンス全体にわたって現実的なシナリオを実行する241のモーションシーケンスをキャプチャする。
両方の人の音声、身体の動き、表情はすべて、私たちのデータセットでキャプチャされます。
また,音声のみから2人の対話的動きを直接推定する拡散モデルに基づく最初のアプローチを示す。
論文 参考訳(メタデータ) (2024-05-19T22:35:02Z) - Beyond Talking -- Generating Holistic 3D Human Dyadic Motion for Communication [17.294279444027563]
本稿では,人間のコミュニケーションに焦点をあてた革新的なタスクを紹介し,話者と聴取者の両方に対して3次元の全体的人間の動きを生成することを目的とする。
話者とリスナーのリアルタイム相互影響を考察し,新しい連鎖型トランスフォーマーに基づく自己回帰モデルを提案する。
提案手法は,2つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-03-28T14:47:32Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。
ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。
また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。