論文の概要: Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis
- arxiv url: http://arxiv.org/abs/2405.09814v1
- Date: Thu, 16 May 2024 05:09:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 15:20:51.617047
- Title: Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis
- Title(参考訳): セマンティック・ジェスティキュレータ:セマンティックスを意識した共音声ジェスチャ合成
- Authors: Zeyi Zhang, Tenglong Ao, Yuyao Zhang, Qingzhe Gao, Chuan Lin, Baoquan Chen, Libin Liu,
- Abstract要約: 本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。
本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。
我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
- 参考スコア(独自算出の注目度): 25.822870767380685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present Semantic Gesticulator, a novel framework designed to synthesize realistic gestures accompanying speech with strong semantic correspondence. Semantically meaningful gestures are crucial for effective non-verbal communication, but such gestures often fall within the long tail of the distribution of natural human motion. The sparsity of these movements makes it challenging for deep learning-based systems, trained on moderately sized datasets, to capture the relationship between the movements and the corresponding speech semantics. To address this challenge, we develop a generative retrieval framework based on a large language model. This framework efficiently retrieves suitable semantic gesture candidates from a motion library in response to the input speech. To construct this motion library, we summarize a comprehensive list of commonly used semantic gestures based on findings in linguistics, and we collect a high-quality motion dataset encompassing both body and hand movements. We also design a novel GPT-based model with strong generalization capabilities to audio, capable of generating high-quality gestures that match the rhythm of speech. Furthermore, we propose a semantic alignment mechanism to efficiently align the retrieved semantic gestures with the GPT's output, ensuring the naturalness of the final animation. Our system demonstrates robustness in generating gestures that are rhythmically coherent and semantically explicit, as evidenced by a comprehensive collection of examples. User studies confirm the quality and human-likeness of our results, and show that our system outperforms state-of-the-art systems in terms of semantic appropriateness by a clear margin.
- Abstract(参考訳): 本稿では,セマンティック・ゲスティキュレータについて紹介する。セマンティック・ゲスティキュレータは,セマンティック・ジェスチャと強いセマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマンティック・アマン
意味的に意味のあるジェスチャーは、効果的な非言語コミュニケーションには不可欠であるが、このようなジェスチャーは、自然の人間の動きの分布の長い尾にしばしば収まる。
これらの動きの空間性は、中程度の大きさのデータセットに基づいて訓練された深層学習に基づくシステムにおいて、動きと対応する音声意味論の関係を捉えることを困難にしている。
この課題に対処するため,我々は大規模言語モデルに基づく生成的検索フレームワークを開発した。
このフレームワークは、入力音声に応答して、動作ライブラリから適切な意味ジェスチャ候補を効率的に検索する。
この動作ライブラリを構築するために,言語学の知見に基づく一般的な意味ジェスチャの包括的リストを要約し,身体と手の動きを包含する高品質な動作データセットを収集する。
また,音声のリズムに合う高品質なジェスチャーを生成可能な,音声への強力な一般化機能を備えた新しいGPTモデルも設計する。
さらに,検索したセマンティックジェスチャをGPTの出力と効率的に整合させるセマンティックアライメント機構を提案し,最終的なアニメーションの自然性を保証する。
本システムは, 包括的サンプル収集によって証明されたように, リズミカルコヒーレントかつ意味論的に明確なジェスチャーを生成する上で, 堅牢性を示す。
ユーザスタディは,結果の質と人間的類似性を検証し,我々のシステムは,意味的適切性の観点から,最先端のシステムよりも明確なマージンで優れていることを示す。
関連論文リスト
- Iconic Gesture Semantics [87.00251241246136]
ジェスチャーの視覚的象徴的モデルの知覚的分類において、情報評価は拡張的な例示(例示)として表される。
視覚コミュニケーションのインスタンスの知覚的分類は、Frege/Montagueフレームワークとは異なる意味の概念を必要とする。
モデル理論評価から動的セマンティックフレームワークにおける推論的解釈まで,ジェスチャ表現の全範囲をカバーするアイコン的ジェスチャセマンティクスが導入された。
論文 参考訳(メタデータ) (2024-04-29T13:58:03Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。
本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。
本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:31:25Z) - GesGPT: Speech Gesture Synthesis With Text Parsing from ChatGPT [8.18076191897917]
ジェスチャー合成は重要な研究分野として注目されている。
深層学習に基づくアプローチは目覚ましい進歩を遂げているが、テキストに存在するリッチな意味情報を見落としていることが多い。
本稿では,大規模言語モデルの意味解析機能を活用したジェスチャ生成手法であるGesGPTを提案する。
論文 参考訳(メタデータ) (2023-03-23T03:30:30Z) - Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with
Hierarchical Neural Embeddings [27.352570417976153]
本稿では、リズムとセマンティクスの両方で説得力のある結果が得られる新しい音声合成法を提案する。
本システムでは,発声とジェスチャーの時間的コヒーレンスを確保するために,ロバストなリズムベースセグメンテーションパイプラインを備えている。
ジェスチャーのセマンティクスにおいて,言語理論に基づく低レベルと高レベルの両方のニューラル埋め込みを効果的に解消する機構を考案する。
論文 参考訳(メタデータ) (2022-10-04T08:19:06Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Multimodal analysis of the predictability of hand-gesture properties [10.332200713176768]
身近な会話エージェントは、ジェスチャーで彼らのスピーチに同行できることの恩恵を受ける。
本稿では,現代ディープラーニングを用いた音声テキストおよび/または音声から,どのジェスチャー特性を予測できるかを検討する。
論文 参考訳(メタデータ) (2021-08-12T14:16:00Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。