論文の概要: SemGes: Semantics-aware Co-Speech Gesture Generation using Semantic Coherence and Relevance Learning
- arxiv url: http://arxiv.org/abs/2507.19359v1
- Date: Fri, 25 Jul 2025 15:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.008002
- Title: SemGes: Semantics-aware Co-Speech Gesture Generation using Semantic Coherence and Relevance Learning
- Title(参考訳): SemGes:セマンティック・コヒーレンスと関連学習を用いたセマンティック・アウェア・コ音声ジェスチャ生成
- Authors: Lanmiao Liu, Esam Ghaleb, Aslı Özyürek, Zerrin Yumak,
- Abstract要約: 共同音声ジェスチャ生成における意味的接地のための新しい手法を提案する。
我々のアプローチは、ベクトル量子化された変分オートエンコーダによって、前もって動きを学習することから始まる。
提案手法は,2つのベンチマークにおいて,音声合成における最先端手法よりも優れる。
- 参考スコア(独自算出の注目度): 0.6249768559720122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating a virtual avatar with semantically coherent gestures that are aligned with speech is a challenging task. Existing gesture generation research mainly focused on generating rhythmic beat gestures, neglecting the semantic context of the gestures. In this paper, we propose a novel approach for semantic grounding in co-speech gesture generation that integrates semantic information at both fine-grained and global levels. Our approach starts with learning the motion prior through a vector-quantized variational autoencoder. Built on this model, a second-stage module is applied to automatically generate gestures from speech, text-based semantics and speaker identity that ensures consistency between the semantic relevance of generated gestures and co-occurring speech semantics through semantic coherence and relevance modules. Experimental results demonstrate that our approach enhances the realism and coherence of semantic gestures. Extensive experiments and user studies show that our method outperforms state-of-the-art approaches across two benchmarks in co-speech gesture generation in both objective and subjective metrics. The qualitative results of our model, code, dataset and pre-trained models can be viewed at https://semgesture.github.io/.
- Abstract(参考訳): 意味的コヒーレントなジェスチャーを備えた仮想アバターを作成することは、難しい作業である。
既存のジェスチャ生成研究は主にリズムビートジェスチャの生成に重点を置いており、ジェスチャの意味的文脈を無視している。
本稿では,音声合成におけるセマンティックグラウンド化のための新しい手法を提案する。
我々のアプローチは、ベクトル量子化された変分オートエンコーダを通して、前もって動きを学習することから始まる。
このモデルに基づいて構築された第2段階モジュールは、音声、テキストベースのセマンティクス、話者識別からジェスチャーを自動的に生成する。
実験により,本手法は意味ジェスチャの現実性とコヒーレンスを高めることを示す。
広汎な実験とユーザスタディにより,本手法は客観的および主観的指標の両面において,共同音声ジェスチャ生成の2つのベンチマークにおいて,最先端のアプローチよりも優れていることが示された。
私たちのモデル、コード、データセット、事前訓練されたモデルの質的な結果は、https://semgesture.github.io/で見ることができる。
関連論文リスト
- Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - Understanding Co-speech Gestures in-the-wild [52.5993021523165]
野生における音声ジェスチャー理解のための新しいフレームワークを提案する。
本稿では,ジェスチャ・テキスト・音声の関連性を理解するためのモデルの能力を評価するために,3つの新しいタスクとベンチマークを提案する。
我々は,これらの課題を解決するために,三モーダルな音声・テキスト・ビデオ・ジェスチャー表現を学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-28T17:55:52Z) - SARGes: Semantically Aligned Reliable Gesture Generation via Intent Chain [25.895313346558464]
SARGesは,大規模言語モデルを利用して意味論的に意味のあるジェスチャーを生成する新しいフレームワークである。
SARGesは、効率的なシングルパス推論により、高度にセマンティックに整合したジェスチャーラベリングを実現する。
提案手法は意味的ジェスチャー合成のための解釈可能な意図推論経路を提供する。
論文 参考訳(メタデータ) (2025-03-26T03:55:41Z) - Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis [55.45253486141108]
RAG-Gestureは、意味的に豊かなジェスチャーを生成するための拡散に基づくジェスチャー生成手法である。
我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから動きを検索する。
提案手法では,各検索挿入が生成したシーケンスに対して与える影響量を調整可能なガイダンス制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:59:46Z) - Emphasizing Semantic Consistency of Salient Posture for Speech-Driven Gesture Generation [44.78811546051805]
音声駆動ジェスチャ生成は、入力音声信号と同期したジェスチャシーケンスを合成することを目的としている。
従来の手法では、ニューラルネットワークを利用して、コンパクトな音声表現をジェスチャーシーケンスに直接マッピングする。
そこで本稿では,姿勢のセマンティック一貫性を重視した音声によるジェスチャー生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T17:22:59Z) - Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis [25.822870767380685]
本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。
本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。
我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
論文 参考訳(メタデータ) (2024-05-16T05:09:01Z) - Iconic Gesture Semantics [87.00251241246136]
ジェスチャーの視覚的象徴的モデルの知覚的分類において、情報評価は拡張的な例示(例示)として表される。
視覚コミュニケーションのインスタンスの知覚的分類は、Frege/Montagueフレームワークとは異なる意味の概念を必要とする。
モデル理論評価から動的セマンティックフレームワークにおける推論的解釈まで,ジェスチャ表現の全範囲をカバーするアイコン的ジェスチャセマンティクスが導入された。
論文 参考訳(メタデータ) (2024-04-29T13:58:03Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Speech Gesture Generation from the Trimodal Context of Text, Audio, and
Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。
提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-04T11:42:45Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。