Fugu-MT 論文翻訳(概要): Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with Hierarchical Neural Embeddings

論文の概要: Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with Hierarchical Neural Embeddings

arxiv url: http://arxiv.org/abs/2210.01448v2
Date: Wed, 5 Oct 2022 03:08:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-06 14:54:38.830314
Title: Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with Hierarchical Neural Embeddings
Title（参考訳）: Rhythmic Gesticulator:階層型ニューラルエンベディングを用いたリズム対応音声合成
Authors: Tenglong Ao, Qingzhe Gao, Yuke Lou, Baoquan Chen, Libin Liu
Abstract要約: 本稿では、リズムとセマンティクスの両方で説得力のある結果が得られる新しい音声合成法を提案する。本システムでは,発声とジェスチャーの時間的コヒーレンスを確保するために,ロバストなリズムベースセグメンテーションパイプラインを備えている。ジェスチャーのセマンティクスにおいて,言語理論に基づく低レベルと高レベルの両方のニューラル埋め込みを効果的に解消する機構を考案する。
参考スコア（独自算出の注目度）: 27.352570417976153
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic synthesis of realistic co-speech gestures is an increasingly important yet challenging task in artificial embodied agent creation. Previous systems mainly focus on generating gestures in an end-to-end manner, which leads to difficulties in mining the clear rhythm and semantics due to the complex yet subtle harmony between speech and gestures. We present a novel co-speech gesture synthesis method that achieves convincing results both on the rhythm and semantics. For the rhythm, our system contains a robust rhythm-based segmentation pipeline to ensure the temporal coherence between the vocalization and gestures explicitly. For the gesture semantics, we devise a mechanism to effectively disentangle both low- and high-level neural embeddings of speech and motion based on linguistic theory. The high-level embedding corresponds to semantics, while the low-level embedding relates to subtle variations. Lastly, we build correspondence between the hierarchical embeddings of the speech and the motion, resulting in rhythm- and semantics-aware gesture synthesis. Evaluations with existing objective metrics, a newly proposed rhythmic metric, and human feedback show that our method outperforms state-of-the-art systems by a clear margin.
Abstract（参考訳）: リアルな音声ジェスチャーの自動合成は, 人工内在エージェント作成において, ますます重要な課題となっている。従来のシステムは、主にエンドツーエンドでジェスチャーを生成することに焦点を当てており、音声とジェスチャーの複雑な微妙な調和のため、明確なリズムと意味をマイニングするのは難しい。本稿では、リズムとセマンティクスの両方で説得力のある結果が得られる新しい音声合成法を提案する。本システムでは,発声とジェスチャーの時間的コヒーレンスを確保するために,ロバストなリズムベースセグメンテーションパイプラインを備えている。ジェスチャーセマンティクスについては,言語理論に基づく音声と動作の低レベルおよび高レベルの神経埋め込みを効果的に分離するメカニズムを考案する。高レベルの埋め込みは意味論に対応し、低レベルの埋め込みは微妙なバリエーションに関連する。最後に、音声の階層的な埋め込みと動きの対応性を構築し、リズムと意味を意識したジェスチャー合成を実現する。既存の客観的指標,新たに提案されたリズミカル指標,人的フィードバックによる評価から,本手法が最先端システムよりも明確なマージンで優れていることが示された。

関連論文リスト

MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。 MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文参考訳（メタデータ） (2026-03-03T18:59:51Z)
Beyond Global Alignment: Fine-Grained Motion-Language Retrieval via Pyramidal Shapley-Taylor Learning [56.6025512458557]
動き言語検索は、自然言語と人間の動きの間の意味的ギャップを埋めることを目的としている。既存のアプローチは主に、全動作シーケンスとグローバルテキスト表現の整合性に重点を置いている。本研究では,微粒な動き言語検索のためのPST学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-29T16:00:12Z)
MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-10-01T04:32:37Z)
SemGes: Semantics-aware Co-Speech Gesture Generation using Semantic Coherence and Relevance Learning [0.6249768559720122]
共同音声ジェスチャ生成における意味的接地のための新しい手法を提案する。我々のアプローチは、ベクトル量子化された変分オートエンコーダによって、前もって動きを学習することから始まる。提案手法は,2つのベンチマークにおいて,音声合成における最先端手法よりも優れる。
論文参考訳（メタデータ） (2025-07-25T15:10:15Z)
SARGes: Semantically Aligned Reliable Gesture Generation via Intent Chain [25.895313346558464]
SARGesは,大規模言語モデルを利用して意味論的に意味のあるジェスチャーを生成する新しいフレームワークである。 SARGesは、効率的なシングルパス推論により、高度にセマンティックに整合したジェスチャーラベリングを実現する。提案手法は意味的ジェスチャー合成のための解釈可能な意図推論経路を提供する。
論文参考訳（メタデータ） (2025-03-26T03:55:41Z)
SemTalk: Holistic Co-speech Motion Generation with Frame-level Semantic Emphasis [19.764460501254607]
一般的なリズム運動と稀だが本質的なセマンティックモーションを慎重に統合しなければ、良好な音声合成が達成できない。本稿では,フレームレベルのセマンティクスを重視した音声合成のためのSemTalkを提案する。
論文参考訳（メタデータ） (2024-12-21T10:16:07Z)
Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis [55.45253486141108]
RAG-Gestureは、意味的に豊かなジェスチャーを生成するための拡散に基づくジェスチャー生成手法である。我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから動きを検索する。提案手法では,各検索挿入が生成したシーケンスに対して与える影響量を調整可能なガイダンス制御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-09T18:59:46Z)
Neuron: Learning Context-Aware Evolving Representations for Zero-Shot Skeleton Action Recognition [64.56321246196859]
本稿では,dUalスケルトン・セマンティック・セマンティック・セマンティック・セマンティック・シンジスティック・フレームワークを提案する。まず、時空間進化型マイクロプロトタイプを構築し、動的コンテキスト認識側情報を統合する。本研究では,空間的圧縮と時間的記憶機構を導入し,空間的時間的マイクロプロトタイプの成長を導く。
論文参考訳（メタデータ） (2024-11-18T05:16:11Z)
Emphasizing Semantic Consistency of Salient Posture for Speech-Driven Gesture Generation [44.78811546051805]
音声駆動ジェスチャ生成は、入力音声信号と同期したジェスチャシーケンスを合成することを目的としている。従来の手法では、ニューラルネットワークを利用して、コンパクトな音声表現をジェスチャーシーケンスに直接マッピングする。そこで本稿では,姿勢のセマンティック一貫性を重視した音声によるジェスチャー生成手法を提案する。
論文参考訳（メタデータ） (2024-10-17T17:22:59Z)
Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis [25.822870767380685]
本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
論文参考訳（メタデータ） (2024-05-16T05:09:01Z)
Unified speech and gesture synthesis using flow matching [24.2094371314481]
本稿では,テキストから音声とスケルトンに基づく3次元ジェスチャーを共同で合成するための,新しい統一アーキテクチャを提案する。提案したアーキテクチャは,従来の技術よりもシンプルで,メモリフットプリントが小さく,音声とジェスチャーの同時分布を捉えることができる。
論文参考訳（メタデータ） (2023-10-08T14:37:28Z)
LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation [41.42316077949012]
セマンティクスを意識した音声ジェスチャー生成を実現するフレームワークであるLivelySpeakerを紹介する。本手法では,タスクをスクリプトベースのジェスチャー生成とオーディオガイドによるリズム改善の2段階に分割する。新たな2段階生成フレームワークでは,妊娠スタイルの変更など,いくつかの応用が可能となった。
論文参考訳（メタデータ） (2023-09-17T15:06:11Z)
Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文参考訳（メタデータ） (2023-06-06T19:17:47Z)
Exploration strategies for articulatory synthesis of complex syllable onsets [20.422871314256266]
高品質な調音音声合成は、音声科学と技術に多くの潜在的な応用がある。手作業による介入なしにこれらのマッピングを学習するための第一歩として,最適化ベースのフレームワークを構築した。
論文参考訳（メタデータ） (2022-04-20T10:47:28Z)
Deep Neural Convolutive Matrix Factorization for Articulatory Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文参考訳（メタデータ） (2022-04-01T14:25:19Z)
Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文参考訳（メタデータ） (2022-03-24T16:33:29Z)
Discretization and Re-synthesis: an alternative method to solve the Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文参考訳（メタデータ） (2021-12-17T08:35:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。