論文の概要: Synthesizing audio from tongue motion during speech using tagged MRI via
transformer
- arxiv url: http://arxiv.org/abs/2302.07203v1
- Date: Tue, 14 Feb 2023 17:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 14:39:38.620141
- Title: Synthesizing audio from tongue motion during speech using tagged MRI via
transformer
- Title(参考訳): タグ付きMRIを用いた音声中の舌運動からの音声合成
- Authors: Xiaofeng Liu, Fangxu Xing, Jerry L. Prince, Maureen Stone, Georges El
Fakhri, Jonghye Woo
- Abstract要約: 本稿では,4次元運動場に固有の予測情報を2次元分光法を用いて探索する,効率的な変形デコーダ変換ネットワークを提案する。
我々の枠組みは、これらの2つのモダリティ間の関係の理解を改善し、言語障害の治療の進展を知らせる可能性を秘めている。
- 参考スコア(独自算出の注目度): 13.442093381065268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Investigating the relationship between internal tissue point motion of the
tongue and oropharyngeal muscle deformation measured from tagged MRI and
intelligible speech can aid in advancing speech motor control theories and
developing novel treatment methods for speech related-disorders. However,
elucidating the relationship between these two sources of information is
challenging, due in part to the disparity in data structure between
spatiotemporal motion fields (i.e., 4D motion fields) and one-dimensional audio
waveforms. In this work, we present an efficient encoder-decoder translation
network for exploring the predictive information inherent in 4D motion fields
via 2D spectrograms as a surrogate of the audio data. Specifically, our encoder
is based on 3D convolutional spatial modeling and transformer-based temporal
modeling. The extracted features are processed by an asymmetric 2D convolution
decoder to generate spectrograms that correspond to 4D motion fields.
Furthermore, we incorporate a generative adversarial training approach into our
framework to further improve synthesis quality on our generated spectrograms.
We experiment on 63 paired motion field sequences and speech waveforms,
demonstrating that our framework enables the generation of clear audio
waveforms from a sequence of motion fields. Thus, our framework has the
potential to improve our understanding of the relationship between these two
modalities and inform the development of treatments for speech disorders.
- Abstract(参考訳): 舌の内部組織点運動とタグ付きmriおよび知性音声から測定した咽頭筋変形との関連性の検討は、音声運動制御理論の進展と、音声関連障害に対する新しい治療法の開発に寄与する。
しかし、時空間運動場(例えば4次元運動場)と1次元音声波形の間のデータ構造の相違により、これらの2つの情報源間の関係の解明は困難である。
本研究では,音声データのサロゲートとして2次元スペクトログラムを用いて,4次元運動場に固有の予測情報を探索する効率的なエンコーダ・デコーダ変換ネットワークを提案する。
具体的には、3次元畳み込み空間モデルとトランスフォーマーに基づく時間モデルに基づく。
抽出された特徴を非対称な2次元畳み込みデコーダで処理し、4次元運動場に対応するスペクトログラムを生成する。
さらに, 生成したスペクトログラムの合成品質をさらに向上させるために, 生成的逆訓練手法をフレームワークに組み込んだ。
本研究では,63組の動場系列と音声波形を実験し,動き場列から明瞭な音声波形を生成できることを実証した。
この枠組みは,これらの2つの様相の関係の理解を深め,言語障害に対する治療の発展を知らせる可能性を秘めている。
関連論文リスト
- Simulating Articulatory Trajectories with Phonological Feature Interpolation [15.482738311360972]
擬似運動コマンドと音節軌跡の前方マッピングについて検討する。
2つの音韻的特徴集合は、それぞれ生成的および調音的音韻論に基づいて、音素的ターゲットシーケンスを符号化するために使用される。
本研究の目的は, 生体運動のダイナミクスを理解することにある。
論文 参考訳(メタデータ) (2024-08-08T10:51:16Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model [17.98911328064481]
共同音声ジェスチャーは、人間と機械の相互作用において優れた視覚効果を得ることができる。
共同音声ジェスチャビデオを生成するための新しい動き分離フレームワークを提案する。
提案手法は,動作評価と映像評価の両方において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-02T11:40:34Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Speech Audio Synthesis from Tagged MRI and Non-Negative Matrix
Factorization via Plastic Transformer [11.91784203088159]
重み付けマップを対応する音声波形に変換するためのエンドツーエンドのディープラーニングフレームワークを開発する。
我々のフレームワークは、重み付けマップから音声音声波形を合成することができ、従来の畳み込みモデルやトランスフォーマーモデルよりも優れている。
論文 参考訳(メタデータ) (2023-09-26T00:21:17Z) - Pathology Synthesis of 3D-Consistent Cardiac MR Images using 2D VAEs and
GANs [0.5039813366558306]
本稿では,教師付きディープラーニング(DL)トレーニングの適用のためのラベル付きデータを生成する手法を提案する。
画像合成はラベル変形とラベルから画像への変換からなる。
心臓MRI画像のデータベースを多様化・拡張する手法として,このようなアプローチが有効であることを示す。
論文 参考訳(メタデータ) (2022-09-09T10:17:49Z) - Tagged-MRI Sequence to Audio Synthesis via Self Residual Attention
Guided Heterogeneous Translator [12.685817926272161]
我々は,タグ付きMRIのシーケンスから対応する音声波形への変換を,データセットサイズに制限のあるエンドツーエンドのディープラーニングフレームワークを開発した。
筆者らの枠組みは, 自己残留注意戦略を指導した, 完全畳み込み非対称性トランスレータを基盤としている。
実験の結果,63個のタグ付きMRIシークエンスと音声音響を併用し,明瞭な音声波形を生成できることが判明した。
論文 参考訳(メタデータ) (2022-06-05T23:08:34Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Adaptation of Tacotron2-based Text-To-Speech for
Articulatory-to-Acoustic Mapping using Ultrasound Tongue Imaging [48.7576911714538]
本稿では,タコトロン2テキスト音声合成モデルの伝達学習と適応による調音-音響マッピングの改良について検討する。
我々は,多話者事前学習型Tacotron2 TTSモデルと,事前学習型WaveGlowニューラルボコーダを用いた。
論文 参考訳(メタデータ) (2021-07-26T09:19:20Z) - Attention and Encoder-Decoder based models for transforming articulatory
movements at different speaking rates [60.02121449986413]
LSTMを用いたエンコーダデコーダアーキテクチャを提案する。
変換された調音運動の振幅を原音と異なる速度で解析する。
AstNetは,既存の変換手法よりも音節運動の持続時間と範囲をモデル化できる。
論文 参考訳(メタデータ) (2020-06-04T19:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。