論文の概要: CoordSpeaker: Exploiting Gesture Captioning for Coordinated Caption-Empowered Co-Speech Gesture Generation
- arxiv url: http://arxiv.org/abs/2511.22863v1
- Date: Fri, 28 Nov 2025 03:38:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.760436
- Title: CoordSpeaker: Exploiting Gesture Captioning for Coordinated Caption-Empowered Co-Speech Gesture Generation
- Title(参考訳): CoordSpeaker:Coordinated Caption-Empowered Co-Speech Gesture Generationのための射出ジェスチャキャプション
- Authors: Fengyi Fang, Sicheng Yang, Wenming Yang,
- Abstract要約: CoordSpeakerは、協調キャプションを組み込んだ音声合成を可能にする包括的なフレームワークである。
本手法は,音声とリズミカルに同期した高品質なジェスチャーと,任意のキャプションとセマンティックに協調したジェスチャーを生成する。
- 参考スコア(独自算出の注目度): 44.84719308595376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Co-speech gesture generation has significantly advanced human-computer interaction, yet speaker movements remain constrained due to the omission of text-driven non-spontaneous gestures (e.g., bowing while talking). Existing methods face two key challenges: 1) the semantic prior gap due to the lack of descriptive text annotations in gesture datasets, and 2) the difficulty in achieving coordinated multimodal control over gesture generation. To address these challenges, this paper introduces CoordSpeaker, a comprehensive framework that enables coordinated caption-empowered co-speech gesture synthesis. Our approach first bridges the semantic prior gap through a novel gesture captioning framework, leveraging a motion-language model to generate descriptive captions at multiple granularities. Building upon this, we propose a conditional latent diffusion model with unified cross-dataset motion representation and a hierarchically controlled denoiser to achieve highly controlled, coordinated gesture generation. CoordSpeaker pioneers the first exploration of gesture understanding and captioning to tackle the semantic gap in gesture generation while offering a novel perspective of bidirectional gesture-text mapping. Extensive experiments demonstrate that our method produces high-quality gestures that are both rhythmically synchronized with speeches and semantically coherent with arbitrary captions, achieving superior performance with higher efficiency compared to existing approaches.
- Abstract(参考訳): 共同音声ジェスチャ生成は、人間とコンピュータの相互作用が著しく進んでいるが、テキスト駆動による非自発的ジェスチャー(例えば、お辞儀)の欠如により、話者の動きは制限されている。
既存の方法は2つの大きな課題に直面します。
1)ジェスチャデータセットにおける記述的テキストアノテーションの欠如による意味的事前ギャップ
2)ジェスチャー生成における協調型マルチモーダル制御の難しさ
これらの課題に対処するために,協調字幕を用いた音声合成を可能にする包括的フレームワークであるCoordSpeakerを紹介する。
提案手法はまず,動作言語モデルを利用して複数の粒度で記述的なキャプションを生成する,新しいジェスチャーキャプションフレームワークを通じて,セマンティックな事前ギャップを橋渡しする。
そこで本研究では,クロスデータセットの動作表現を統一した条件付き潜在拡散モデルと階層的に制御されたデノイザを用いて,高度に制御された協調ジェスチャー生成を実現することを提案する。
CoordSpeakerは、双方向のジェスチャーテキストマッピングの新しい視点を提供しながら、ジェスチャー生成のセマンティックギャップに取り組むために、ジェスチャー理解とキャプションの最初の探索を開拓した。
大規模な実験により,本手法は音声とリズミカルに同期し,任意のキャプションとセマンティックに整合した高品質なジェスチャーを生成する。
関連論文リスト
- SemGes: Semantics-aware Co-Speech Gesture Generation using Semantic Coherence and Relevance Learning [0.6249768559720122]
共同音声ジェスチャ生成における意味的接地のための新しい手法を提案する。
我々のアプローチは、ベクトル量子化された変分オートエンコーダによって、前もって動きを学習することから始まる。
提案手法は,2つのベンチマークにおいて,音声合成における最先端手法よりも優れる。
論文 参考訳(メタデータ) (2025-07-25T15:10:15Z) - Understanding Co-speech Gestures in-the-wild [52.5993021523165]
野生における音声ジェスチャー理解のための新しいフレームワークを提案する。
本稿では,ジェスチャと音声の関連性を理解するためのモデルの能力を評価するために,3つの新しいタスクとベンチマークを提案する。
本稿では,これらの課題を解決するために,3モーダルなビデオ・ジェスチャー・テキスト表現を学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-28T17:55:52Z) - Contextual Gesture: Co-Speech Gesture Video Generation through Context-aware Gesture Representation [18.980289980431426]
Contextual Gestureは、3つの革新的なコンポーネントを通じて音声ジェスチャービデオ生成を改善するフレームワークである。
実験により、コンテキストジェスチャは、現実的かつ音声対応のジェスチャービデオを生成するだけでなく、長文生成および動画ジェスチャー編集アプリケーションもサポートすることが示された。
論文 参考訳(メタデータ) (2025-02-11T04:09:12Z) - Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis [55.45253486141108]
RAG-Gestureは、意味的に豊かなジェスチャーを生成するための拡散に基づくジェスチャー生成手法である。
我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから動きを検索する。
提案手法では,各検索挿入が生成したシーケンスに対して与える影響量を調整可能なガイダンス制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:59:46Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation [41.42316077949012]
セマンティクスを意識した音声ジェスチャー生成を実現するフレームワークであるLivelySpeakerを紹介する。
本手法では,タスクをスクリプトベースのジェスチャー生成とオーディオガイドによるリズム改善の2段階に分割する。
新たな2段階生成フレームワークでは,妊娠スタイルの変更など,いくつかの応用が可能となった。
論文 参考訳(メタデータ) (2023-09-17T15:06:11Z) - QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。
本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。
本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:31:25Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。