論文の概要: Speech Audio Synthesis from Tagged MRI and Non-Negative Matrix
Factorization via Plastic Transformer
- arxiv url: http://arxiv.org/abs/2309.14586v1
- Date: Tue, 26 Sep 2023 00:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 15:25:23.956508
- Title: Speech Audio Synthesis from Tagged MRI and Non-Negative Matrix
Factorization via Plastic Transformer
- Title(参考訳): タグ付きMRIによる音声合成とプラスチック変圧器による非負行列分解
- Authors: Xiaofeng Liu, Fangxu Xing, Maureen Stone, Jiachen Zhuo, Sidney Fels,
Jerry L. Prince, Georges El Fakhri, Jonghye Woo
- Abstract要約: 重み付けマップを対応する音声波形に変換するためのエンドツーエンドのディープラーニングフレームワークを開発する。
我々のフレームワークは、重み付けマップから音声音声波形を合成することができ、従来の畳み込みモデルやトランスフォーマーモデルよりも優れている。
- 参考スコア(独自算出の注目度): 11.91784203088159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The tongue's intricate 3D structure, comprising localized functional units,
plays a crucial role in the production of speech. When measured using tagged
MRI, these functional units exhibit cohesive displacements and derived
quantities that facilitate the complex process of speech production.
Non-negative matrix factorization-based approaches have been shown to estimate
the functional units through motion features, yielding a set of building blocks
and a corresponding weighting map. Investigating the link between weighting
maps and speech acoustics can offer significant insights into the intricate
process of speech production. To this end, in this work, we utilize
two-dimensional spectrograms as a proxy representation, and develop an
end-to-end deep learning framework for translating weighting maps to their
corresponding audio waveforms. Our proposed plastic light transformer (PLT)
framework is based on directional product relative position bias and
single-level spatial pyramid pooling, thus enabling flexible processing of
weighting maps with variable size to fixed-size spectrograms, without input
information loss or dimension expansion. Additionally, our PLT framework
efficiently models the global correlation of wide matrix input. To improve the
realism of our generated spectrograms with relatively limited training samples,
we apply pair-wise utterance consistency with Maximum Mean Discrepancy
constraint and adversarial training. Experimental results on a dataset of 29
subjects speaking two utterances demonstrated that our framework is able to
synthesize speech audio waveforms from weighting maps, outperforming
conventional convolution and transformer models.
- Abstract(参考訳): 舌の複雑な3D構造は、局所的な機能単位からなり、音声の生成において重要な役割を果たす。
タグ付きMRIを用いて測定すると、これらの機能単位は凝集変位と導出量を示し、音声生成の複雑な過程を促進する。
非負行列分解に基づくアプローチは、運動特徴を通して関数単位を推定し、一連の構成要素ブロックと対応する重み付け写像を生成する。
重み付け地図と音声音響の関係を調べることは、音声生成の複雑な過程に重要な洞察を与える。
そこで本研究では,2次元スペクトログラムをプロキシ表現として活用し,重み付けマップを対応する音声波形に翻訳するエンドツーエンドのディープラーニングフレームワークを開発した。
提案するプラスチック光変圧器(plt)フレームワークは,指向性製品相対位置バイアスと単層空間ピラミッドプーリングを基盤とし,入力情報損失や次元拡大を伴わずに,可変サイズの重み付けマップを固定サイズのスペクトログラムに柔軟に処理できる。
さらに、pltフレームワークは、広域マトリックス入力のグローバル相関を効率的にモデル化する。
比較的限られたトレーニングサンプルで生成したスペクトログラムのリアリズムを改善するために,最大平均離散性制約と対角的訓練を適用した。
2つの発話を発話する29人の被験者を対象とした実験結果から,本フレームワークは重み付けマップから音声波形を合成し,従来の畳み込み・変圧器モデルより優れることを示した。
関連論文リスト
- Phononic materials with effectively scale-separated hierarchical features using interpretable machine learning [57.91994916297646]
構造的階層的な音波材料は、複数の周波数範囲にわたるエラストダイナミック波と振動の有望なチューニング性を引き起こしている。
本稿では、各長さスケールの特徴が対象周波数範囲内の帯域ギャップをもたらす階層単位セルを求める。
提案手法は,階層型設計空間における新しい領域の探索を柔軟かつ効率的に行う手法である。
論文 参考訳(メタデータ) (2024-08-15T21:35:06Z) - Simulating Articulatory Trajectories with Phonological Feature Interpolation [15.482738311360972]
擬似運動コマンドと音節軌跡の前方マッピングについて検討する。
2つの音韻的特徴集合は、それぞれ生成的および調音的音韻論に基づいて、音素的ターゲットシーケンスを符号化するために使用される。
本研究の目的は, 生体運動のダイナミクスを理解することにある。
論文 参考訳(メタデータ) (2024-08-08T10:51:16Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Synthesizing audio from tongue motion during speech using tagged MRI via
transformer [13.442093381065268]
本稿では,4次元運動場に固有の予測情報を2次元分光法を用いて探索する,効率的な変形デコーダ変換ネットワークを提案する。
我々の枠組みは、これらの2つのモダリティ間の関係の理解を改善し、言語障害の治療の進展を知らせる可能性を秘めている。
論文 参考訳(メタデータ) (2023-02-14T17:27:55Z) - Tagged-MRI Sequence to Audio Synthesis via Self Residual Attention
Guided Heterogeneous Translator [12.685817926272161]
我々は,タグ付きMRIのシーケンスから対応する音声波形への変換を,データセットサイズに制限のあるエンドツーエンドのディープラーニングフレームワークを開発した。
筆者らの枠組みは, 自己残留注意戦略を指導した, 完全畳み込み非対称性トランスレータを基盤としている。
実験の結果,63個のタグ付きMRIシークエンスと音声音響を併用し,明瞭な音声波形を生成できることが判明した。
論文 参考訳(メタデータ) (2022-06-05T23:08:34Z) - A microstructure estimation Transformer inspired by sparse
representation for diffusion MRI [11.761543033212797]
ダウンサンプルq空間データを用いたdMRIによる微細構造推定のためのTransformerに基づく学習ベースフレームワークを提案する。
提案手法は,スキャン時間で最大11.25倍の加速を実現し,他の最先端の学習手法よりも優れていた。
論文 参考訳(メタデータ) (2022-05-13T05:14:22Z) - How to See Hidden Patterns in Metamaterials with Interpretable Machine
Learning [82.67551367327634]
我々は,材料単位セルのパターンを見つけるための,解釈可能な多分解能機械学習フレームワークを開発した。
具体的には、形状周波数特徴と単位セルテンプレートと呼ばれるメタマテリアルの2つの新しい解釈可能な表現を提案する。
論文 参考訳(メタデータ) (2021-11-10T21:19:02Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - A Deep Joint Sparse Non-negative Matrix Factorization Framework for
Identifying the Common and Subject-specific Functional Units of Tongue Motion
During Speech [7.870139900799612]
音声中の舌運動の共通および主観的機能単位を特定するための新しいディープラーニングフレームワークを開発した。
スパースとグラフ正規化によるNMFを、ディープニューラルネットワークに似たモジュラーアーキテクチャに変換する。
論文 参考訳(メタデータ) (2020-07-09T15:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。