論文の概要: Simulating Articulatory Trajectories with Phonological Feature Interpolation
- arxiv url: http://arxiv.org/abs/2408.04363v1
- Date: Thu, 8 Aug 2024 10:51:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 15:48:23.214692
- Title: Simulating Articulatory Trajectories with Phonological Feature Interpolation
- Title(参考訳): 音韻的特徴補間による調音軌道のシミュレーション
- Authors: Angelo Ortiz Tandazo, Thomas Schatz, Thomas Hueber, Emmanuel Dupoux,
- Abstract要約: 擬似運動コマンドと音節軌跡の前方マッピングについて検討する。
2つの音韻的特徴集合は、それぞれ生成的および調音的音韻論に基づいて、音素的ターゲットシーケンスを符号化するために使用される。
本研究の目的は, 生体運動のダイナミクスを理解することにある。
- 参考スコア(独自算出の注目度): 15.482738311360972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a first step towards a complete computational model of speech learning involving perception-production loops, we investigate the forward mapping between pseudo-motor commands and articulatory trajectories. Two phonological feature sets, based respectively on generative and articulatory phonology, are used to encode a phonetic target sequence. Different interpolation techniques are compared to generate smooth trajectories in these feature spaces, with a potential optimisation of the target value and timing to capture co-articulation effects. We report the Pearson correlation between a linear projection of the generated trajectories and articulatory data derived from a multi-speaker dataset of electromagnetic articulography (EMA) recordings. A correlation of 0.67 is obtained with an extended feature set based on generative phonology and a linear interpolation technique. We discuss the implications of our results for our understanding of the dynamics of biological motion.
- Abstract(参考訳): 認識生成ループを含む音声学習の完全な計算モデルへの第一歩として,擬似モダコマンドと音声軌道の前方マッピングについて検討する。
2つの音韻的特徴集合は、それぞれ生成的および調音的音韻論に基づいて、音素的ターゲットシーケンスを符号化するために使用される。
異なる補間手法を比較して、これらの特徴空間における滑らかな軌道を生成する。
生成したトラジェクトリの線形投影と,電磁動脈造影(EMA)記録のマルチスピーカデータセットから得られた調音データとのピアソン相関を報告する。
生成音韻法および線形補間法に基づく拡張特徴セットで0.67の相関を求める。
本研究の目的は, 生体運動のダイナミクスを理解することにある。
関連論文リスト
- Phononic materials with effectively scale-separated hierarchical features using interpretable machine learning [57.91994916297646]
構造的階層的な音波材料は、複数の周波数範囲にわたるエラストダイナミック波と振動の有望なチューニング性を引き起こしている。
本稿では、各長さスケールの特徴が対象周波数範囲内の帯域ギャップをもたらす階層単位セルを求める。
提案手法は,階層型設計空間における新しい領域の探索を柔軟かつ効率的に行う手法である。
論文 参考訳(メタデータ) (2024-08-15T21:35:06Z) - Speech Audio Synthesis from Tagged MRI and Non-Negative Matrix
Factorization via Plastic Transformer [11.91784203088159]
重み付けマップを対応する音声波形に変換するためのエンドツーエンドのディープラーニングフレームワークを開発する。
我々のフレームワークは、重み付けマップから音声音声波形を合成することができ、従来の畳み込みモデルやトランスフォーマーモデルよりも優れている。
論文 参考訳(メタデータ) (2023-09-26T00:21:17Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Synthesizing audio from tongue motion during speech using tagged MRI via
transformer [13.442093381065268]
本稿では,4次元運動場に固有の予測情報を2次元分光法を用いて探索する,効率的な変形デコーダ変換ネットワークを提案する。
我々の枠組みは、これらの2つのモダリティ間の関係の理解を改善し、言語障害の治療の進展を知らせる可能性を秘めている。
論文 参考訳(メタデータ) (2023-02-14T17:27:55Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Bidirectional Interaction between Visual and Motor Generative Models
using Predictive Coding and Active Inference [68.8204255655161]
本稿では,感覚予測のための生成モデルと,運動軌跡の生成モデルからなるニューラルアーキテクチャを提案する。
我々は,知覚予測のシーケンスが学習,制御,オンライン適応を導くレールとしてどのように機能するかを強調する。
論文 参考訳(メタデータ) (2021-04-19T09:41:31Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z) - Correlation based Multi-phasal models for improved imagined speech EEG
recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。
ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。
提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文 参考訳(メタデータ) (2020-11-04T09:39:53Z) - Learning Joint Articulatory-Acoustic Representations with Normalizing
Flows [7.183132975698293]
可逆ニューラルネットワークモデルを用いて母音の調音領域と音響領域の結合潜時表現を求める。
提案手法は調音から音響へのマッピングと音響から調音へのマッピングの両方を実現し,両領域の同時符号化の実現に成功していることを示す。
論文 参考訳(メタデータ) (2020-05-16T04:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。