論文の概要: DYNARTmo: A Dynamic Articulatory Model for Visualization of Speech Movement Patterns
- arxiv url: http://arxiv.org/abs/2507.20343v2
- Date: Mon, 04 Aug 2025 10:03:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:57.691277
- Title: DYNARTmo: A Dynamic Articulatory Model for Visualization of Speech Movement Patterns
- Title(参考訳): DYNARTMO:音声運動パターンの可視化のための動的調音モデル
- Authors: Bernd J. Kröger,
- Abstract要約: DYNARTMOは,2次元中矢状平面における音声の調音過程を可視化する動的調音モデルである。
このモデルは、UK-DYNAMOフレームワークに基づいて構築され、調音的不特定性、分節的およびジェスチャー的制御、協調の原理を統合している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DYNARTmo, a dynamic articulatory model designed to visualize speech articulation processes in a two-dimensional midsagittal plane. The model builds upon the UK-DYNAMO framework and integrates principles of articulatory underspecification, segmental and gestural control, and coarticulation. DYNARTmo simulates six key articulators based on ten continuous and six discrete control parameters, allowing for the generation of both vocalic and consonantal articulatory configurations. The current implementation is embedded in a web-based application (SpeechArticulationTrainer) that includes sagittal, glottal, and palatal views, making it suitable for use in phonetics education and speech therapy. While this paper focuses on the static modeling aspects, future work will address dynamic movement generation and integration with articulatory-acoustic modules.
- Abstract(参考訳): DYNARTMOは,2次元中矢状平面における音声の調音過程を可視化する動的調音モデルである。
このモデルは、UK-DYNAMOフレームワークに基づいて構築され、調音的不特定性、分節的およびジェスチャー的制御、協調の原理を統合している。
DYNARTMOは、10つの連続および6つの個別制御パラメータに基づいて6つのキー調節をシミュレートし、発声と子音の両方の調音構成を生成する。
現在の実装はWebベースのアプリケーション(SpeechArticulationTrainer)に組み込まれており、サジタル、声門、口蓋のビューを含み、音声学の教育や音声治療に適している。
本稿では静的なモデリングの側面に焦点をあてるが、今後の研究は動的動きの生成と調音-音響モジュールの統合に対処する。
関連論文リスト
- SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - Tracking Articulatory Dynamics in Speech with a Fixed-Weight BiLSTM-CNN Architecture [0.0]
本稿では,ある音声音響に係わる舌と唇の調音特徴を予測するための新しい手法を提案する。
提案するネットワークは,同時記録音声とEMA(Electromagnetic Articulography)データセットの2つのデータセットで訓練されている。
論文 参考訳(メタデータ) (2025-04-25T05:57:22Z) - Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis [56.749927786910554]
本稿では,ガウススティングと構造化オーディオファクトリゼーションプレーン(Audio-Plane)を統合し,高品質,音声同期,リアルタイム音声ヘッド生成を実現する新しいフレームワークを提案する。
提案手法は,最先端の視覚的品質,正確なオーディオ-リップ同期,リアルタイム性能を実現し,従来の2次元および3次元のパラダイムよりも優れていた。
論文 参考訳(メタデータ) (2025-03-28T16:50:27Z) - It Takes Two: Real-time Co-Speech Two-person's Interaction Generation via Reactive Auto-regressive Diffusion Model [34.94330722832987]
会話中の2文字の動的動きを合成するための音声駆動自動回帰システムを提案する。
我々の知る限りでは、オンライン方式で2文字の対話型フルボディモーションを生成できる最初のシステムである。
論文 参考訳(メタデータ) (2024-12-03T12:31:44Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling [57.08286593059137]
音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。
まずBEAT2(BEAT-SMPLX-FLAME)というメッシュレベルの音声合成データセットを紹介した。
実験により、EMAGEは最先端のパフォーマンスで総合的なジェスチャーを生成することが示された。
論文 参考訳(メタデータ) (2023-12-31T02:25:41Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Synthesizing audio from tongue motion during speech using tagged MRI via
transformer [13.442093381065268]
本稿では,4次元運動場に固有の予測情報を2次元分光法を用いて探索する,効率的な変形デコーダ変換ネットワークを提案する。
我々の枠組みは、これらの2つのモダリティ間の関係の理解を改善し、言語障害の治療の進展を知らせる可能性を秘めている。
論文 参考訳(メタデータ) (2023-02-14T17:27:55Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z) - Learning Joint Articulatory-Acoustic Representations with Normalizing
Flows [7.183132975698293]
可逆ニューラルネットワークモデルを用いて母音の調音領域と音響領域の結合潜時表現を求める。
提案手法は調音から音響へのマッピングと音響から調音へのマッピングの両方を実現し,両領域の同時符号化の実現に成功していることを示す。
論文 参考訳(メタデータ) (2020-05-16T04:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。