論文の概要: The Dynamic Articulatory Model DYNARTmo: Dynamic Movement Generation and Speech Gestures
- arxiv url: http://arxiv.org/abs/2511.08372v1
- Date: Wed, 12 Nov 2025 01:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.785799
- Title: The Dynamic Articulatory Model DYNARTmo: Dynamic Movement Generation and Speech Gestures
- Title(参考訳): 動的調音モデルDYNARTMO:動的運動生成と音声ジェスチャー
- Authors: Bernd J. Kröger,
- Abstract要約: 本稿では,動的調音モデルDYNARTMOの現在の実装について述べる。
モデルは、音声ジェスチャーの概念と対応するジェスチャースコアに基づいて連続的な調音運動を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the current implementation of the dynamic articulatory model DYNARTmo, which generates continuous articulator movements based on the concept of speech gestures and a corresponding gesture score. The model provides a neurobiologically inspired computational framework for simulating the hierarchical control of speech production from linguistic representation to articulatory-acoustic realization. We present the structure of the gesture inventory, the coordination of gestures in the gesture score, and their translation into continuous articulator trajectories controlling the DYNARTmo vocal tract model.
- Abstract(参考訳): 本稿では,音声ジェスチャーの概念とそれに対応するジェスチャースコアに基づいて連続的な調音運動を生成する動的調音モデルDYNARTMOの現在の実装について述べる。
このモデルは、言語表現から調音的音響的実現に至るまで、音声生成の階層的制御をシミュレートするための神経生物学的にインスパイアされた計算フレームワークを提供する。
DYNARTMO声道モデルを制御する連続的な調音軌道への変換について,ジェスチャーの在庫構造,ジェスチャースコアにおけるジェスチャーの調整について述べる。
関連論文リスト
- MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - 3DGesPolicy: Phoneme-Aware Holistic Co-Speech Gesture Generation Based on Action Control [3.606473077857744]
3DGesPolicyは、連続的な軌跡制御問題として総合的なジェスチャー生成を再構成するアクションベースのフレームワークである。
フレーム・ツー・フレームの変動を統一的全体的動作としてモデル化することにより,フレーム間の動作パターンを効果的に学習する。
表現的アライメントにおけるギャップをさらに埋めるため,Gesture-Audio-Phoneme (GAP) 融合モジュールを提案する。
論文 参考訳(メタデータ) (2026-01-26T12:57:36Z) - Lips-Jaw and Tongue-Jaw Articulatory Tradeoff in DYNARTmo [0.0]
本稿では,DYNARTMOの動的動脈モデルが一次音節と二次音節間の調音的トレードオフに与える影響について検討する。
DYNARTMOはフルタスクダイナミックな2次処理を実装していないが、音声音韻学で使われるものと同等の1次タスク空間のジェスチャー仕様を採用している。
論文 参考訳(メタデータ) (2025-11-27T06:45:10Z) - Modeling Turn-Taking with Semantically Informed Gestures [56.31369237947851]
マルチパーティDnD Gesture corpusの拡張であるDnD Gesture++に2,663のセマンティックジェスチャアノテーションを付加した。
テキスト,音声,ジェスチャーを統合したMixture-of-Expertsフレームワークを用いてターンテイク予測をモデル化する。
実験により、意味的にガイドされたジェスチャーを組み込むことで、ベースラインよりも一貫したパフォーマンス向上が得られることが示された。
論文 参考訳(メタデータ) (2025-10-22T08:17:54Z) - InterSyn: Interleaved Learning for Dynamic Motion Synthesis in the Wild [65.29569330744056]
本稿では,リアルなインタラクション動作の生成を目標とする新しいフレームワークであるInterleaved Learning for Motion Synthesis(InterSyn)を提案する。
InterSynはインターリーブド・ラーニング・ストラテジーを用いて、現実世界のシナリオに固有の自然な動的相互作用とニュアンスド・コーディネーションを捉えている。
論文 参考訳(メタデータ) (2025-08-14T03:00:06Z) - DYNARTmo: A Dynamic Articulatory Model for Visualization of Speech Movement Patterns [0.0]
DYNARTMOは,2次元中矢状平面における音声の調音過程を可視化する動的調音モデルである。
このモデルは、UK-DYNAMOフレームワークに基づいて構築され、調音的不特定性、分節的およびジェスチャー的制御、協調の原理を統合している。
論文 参考訳(メタデータ) (2025-07-27T16:19:46Z) - Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis [55.45253486141108]
RAG-Gestureは、意味的に豊かなジェスチャーを生成するための拡散に基づくジェスチャー生成手法である。
我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから動きを検索する。
提案手法では,各検索挿入が生成したシーケンスに対して与える影響量を調整可能なガイダンス制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:59:46Z) - Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis [25.822870767380685]
本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。
本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。
我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
論文 参考訳(メタデータ) (2024-05-16T05:09:01Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。