論文の概要: DuoGesture: Neuro-Inspired and Biomechanically Informed Dual-Stream Co-Speech Gesture Generation
- arxiv url: http://arxiv.org/abs/2605.26236v1
- Date: Mon, 25 May 2026 18:03:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.30195
- Title: DuoGesture: Neuro-Inspired and Biomechanically Informed Dual-Stream Co-Speech Gesture Generation
- Title(参考訳): DuoGesture:ニューロインスパイアされたバイオメカニカルなDual-Stream Co-Speechジェスチャ生成
- Authors: Ferdinand Paar, Lanmiao Liu, Aslı Özyürek, Serge Thill, Esam Ghaleb,
- Abstract要約: 既存の全体的ジェスチャーモデルは、語彙的に接地されたセマンティックジェスチャと、しばしば韻律に沿ったビートジェスチャを混合する。
EmphDuoGestureは,共音声のジェスチャー合成をセマンティックストリームとビートストリームに分解する,ニューロインスパイアされたバイオメカニカルな二重ストリームアプローチである。
- 参考スコア(独自算出の注目度): 27.296930205552954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Co-speech gesture generation requires both semantic expressivity and biomechanically plausible rhythmic motion. Existing holistic gesture models mix lexically grounded semantic gestures with frequent prosody-aligned beat gestures. This limits semantic grounding, speech-motion alignment, and kinematic smoothness. We propose \emph{DuoGesture}, a neuro-inspired and biomechanically informed dual-stream approach that decomposes co-speech gesture synthesis into coupled semantic and beat streams. The two streams are coordinated by a \emph{Semantic Variational Information Bottleneck}, a stochastic frame-level gate that learns when semantic gestures should override rhythmic beat motion. The semantic stream is controlled by \emph{Motion-Grounded Semantic Conditioning}, which replaces purely linguistic word embeddings with motion-language representations to provide motion-aligned semantic priors for long-tailed lexical triggers of gestures. The beat stream is further regularised by an \emph{Inertial Beat Prior}, an anthropometry-weighted arm-chain module that reduces jitter and improves rhythmic consistency without constraining semantic frames. Objective evaluations and subjective experiments show that DuoGesture outperforms strong holistic baselines, while component ablations confirm the complementary roles of semantic grounding, stochastic stream selection, and biomechanical regularisation.
- Abstract(参考訳): 共同音声ジェスチャ生成には意味表現性と生体力学的に妥当なリズム運動の両方が必要である。
既存の全体的ジェスチャーモデルは、語彙的に接地されたセマンティックジェスチャと、しばしば韻律に沿ったビートジェスチャを混合する。
これにより意味的接地、音声と運動のアライメント、運動の滑らかさが制限される。
本稿では,共音声のジェスチャー合成を複合意味ストリームとビートストリームに分解する,ニューロインスパイアされたバイオメカニカルなデュアルストリームアプローチである 'emph{DuoGesture} を提案する。
この2つのストリームは、セマンティックなジェスチャーがリズミカルなビートの動きをオーバーライドすべきかどうかを学習する確率的なフレームレベルゲートである \emph{Semantic Variational Information Bottleneck} によってコーディネートされる。
セマンティックストリームは \emph{Motion-Grounded Semantic Conditioning} によって制御される。これは、純粋に言語的な単語の埋め込みをモーション言語表現に置き換え、ジェスチャーの長い尾の語彙的トリガーに対して、動きに沿ったセマンティックプリエントを提供する。
ビートストリームは、人為的に重み付けされたアームチェーンモジュールである \emph{Inertial Beat Prior} によってさらに正規化され、ジッタを低減し、セマンティックフレームを制約することなくリズム整合性を改善する。
客観的な評価と主観的な実験により、DuoGestureは強い全体論的ベースラインよりも優れており、一方、コンポーネントの短縮は意味的接地、確率的ストリーム選択、生体力学正則化の相補的な役割を証明している。
関連論文リスト
- Unison: Harmonizing Motion, Speech, and Sound for Human-Centric Audio-Video Generation [50.411841997631484]
We present Unison, a unified framework that promote coherence across the motion, speech, and sound modalities。
We show that Unison achieves state-of-the-art performance in audio perceptual quality and cross-modal synchro。
論文 参考訳(メタデータ) (2026-05-09T06:32:54Z) - MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - Beyond Global Alignment: Fine-Grained Motion-Language Retrieval via Pyramidal Shapley-Taylor Learning [56.6025512458557]
動き言語検索は、自然言語と人間の動きの間の意味的ギャップを埋めることを目的としている。
既存のアプローチは主に、全動作シーケンスとグローバルテキスト表現の整合性に重点を置いている。
本研究では,微粒な動き言語検索のためのPST学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T16:00:12Z) - SemTalk: Holistic Co-speech Motion Generation with Frame-level Semantic Emphasis [19.764460501254607]
一般的なリズム運動と稀だが本質的なセマンティックモーションを慎重に統合しなければ、良好な音声合成が達成できない。
本稿では,フレームレベルのセマンティクスを重視した音声合成のためのSemTalkを提案する。
論文 参考訳(メタデータ) (2024-12-21T10:16:07Z) - Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with
Hierarchical Neural Embeddings [27.352570417976153]
本稿では、リズムとセマンティクスの両方で説得力のある結果が得られる新しい音声合成法を提案する。
本システムでは,発声とジェスチャーの時間的コヒーレンスを確保するために,ロバストなリズムベースセグメンテーションパイプラインを備えている。
ジェスチャーのセマンティクスにおいて,言語理論に基づく低レベルと高レベルの両方のニューラル埋め込みを効果的に解消する機構を考案する。
論文 参考訳(メタデータ) (2022-10-04T08:19:06Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。