論文の概要: Adaptation of Tongue Ultrasound-Based Silent Speech Interfaces Using
Spatial Transformer Networks
- arxiv url: http://arxiv.org/abs/2305.19130v1
- Date: Tue, 30 May 2023 15:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 15:23:01.227606
- Title: Adaptation of Tongue Ultrasound-Based Silent Speech Interfaces Using
Spatial Transformer Networks
- Title(参考訳): 空間変換器ネットワークを用いた舌超音波によるサイレント音声インタフェースの適応
- Authors: L\'aszl\'o T\'oth, Amin Honarmandi Shandiz, G\'abor Gosztolya, Csap\'o
Tam\'as G\'abor
- Abstract要約: 我々は、入力画像上でアフィン変換を行うことのできる空間変換器ネットワーク(STN)モジュールを用いて、ディープネットワークを拡張した。
STNはネットワークの約10%を占めるが,本実験ではSTNモジュールのみを適応させることで,平均88%のMSE削減が可能であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thanks to the latest deep learning algorithms, silent speech interfaces (SSI)
are now able to synthesize intelligible speech from articulatory movement data
under certain conditions. However, the resulting models are rather
speaker-specific, making a quick switch between users troublesome. Even for the
same speaker, these models perform poorly cross-session, i.e. after dismounting
and re-mounting the recording equipment. To aid quick speaker and session
adaptation of ultrasound tongue imaging-based SSI models, we extend our deep
networks with a spatial transformer network (STN) module, capable of performing
an affine transformation on the input images. Although the STN part takes up
only about 10\% of the network, our experiments show that adapting just the STN
module might allow to reduce MSE by 88\% on the average, compared to retraining
the whole network. The improvement is even larger (around 92\%) when adapting
the network to different recording sessions from the same speaker.
- Abstract(参考訳): 最新のディープラーニングアルゴリズムにより、サイレント音声インタフェース(SSI)は、特定の条件下での調音運動データから知覚可能な音声を合成できるようになった。
しかし、結果のモデルはかなりスピーカー固有のもので、ユーザー間で素早く切り替えるのが面倒だ。
同じ話者であっても、これらのモデルは、記録装置の降着と再装着後のクロスセッションが不十分である。
超音波舌画像を用いたSSIモデルの迅速な話者適応とセッション適応を支援するため,入力画像上でアフィン変換を行うことのできる空間トランスフォーマネットワーク(STN)モジュールを用いてディープネットワークを拡張した。
STNはネットワークの約10%を占めるが,本実験により,STNモジュールのみを適応させることで,ネットワーク全体の再トレーニングに比べて平均88%削減できる可能性が示された。
この改善は、同じ話者から異なる録音セッションにネットワークを適用する際にさらに大きくなる(約92\%)。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Unifying Speech Enhancement and Separation with Gradient Modulation for
End-to-End Noise-Robust Speech Separation [23.758202121043805]
本稿では,音声の強調と分離を勾配変調で統一し,ノイズ・ロバスト性を改善する新しいネットワークを提案する。
実験結果から,大規模Libri2Mix-およびLibri3Mix-noisyデータセットの最先端化が得られた。
論文 参考訳(メタデータ) (2023-02-22T03:54:50Z) - Speech Enhancement for Virtual Meetings on Cellular Networks [1.487576938041254]
本研究では,携帯端末上での仮想会議における深層学習(DL)を用いた音声強調について検討した。
T-Mobileネットワーク上でZoom Meetingsを用いて送信されたDNS(t-DNS)データセットを収集する。
本研究の目的は、深層学習モデルを用いて、携帯電話ネットワーク上で伝達される音声を強化することである。
論文 参考訳(メタデータ) (2023-02-02T04:35:48Z) - BayesSpeech: A Bayesian Transformer Network for Automatic Speech
Recognition [0.0]
近年のエンド・ツー・エンド・エンド・ディープ・ラーニング・モデルによる開発は, 音声認識タスクにおけるRNN(Recurrent Neural Networks)の現状よりも, ほぼ, あるいはそれに近い性能を示すことが示されている。
重みのばらつきの導入によって,LibriSpeech-960のトレーニング時間と最先端性能が向上することを示す。
論文 参考訳(メタデータ) (2023-01-16T16:19:04Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Dynamic Slimmable Denoising Network [64.77565006158895]
DDSNet(Dynamic Slimmable Denoising Network)は、計算量が少なくて優れたDenoising品質を実現するための一般的な手法である。
OurNetには動的ゲートによる動的推論の能力が備わっている。
我々の実験は、最先端の個別に訓練された静的 denoising ネットワークよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-10-17T22:45:33Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - Ultra2Speech -- A Deep Learning Framework for Formant Frequency
Estimation and Tracking from Ultrasound Tongue Images [5.606679908174784]
本研究は,超音波(US)舌画像に基づく動脈-音響マッピング問題に対処する。
U2F(Ultrasound2Formant, Ultrasound2Formant, Ultrasound2Formant, U2F)Net)と呼ばれる、被験者のあごの下に置かれた米国の舌画像のマッピングに、新しいディープラーニングアーキテクチャを使用します。
論文 参考訳(メタデータ) (2020-06-29T20:42:11Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Sparse Mixture of Local Experts for Efficient Speech Enhancement [19.645016575334786]
本稿では,専門的ニューラルネットワークの効率的なアンサンブルを通して,音声を聴覚的に認識するためのディープラーニング手法について検討する。
タスクを重複しないサブプロブレムに分割することで、計算複雑性を低減しつつ、デノナイジング性能を向上させることができる。
以上の結果から,微調整されたアンサンブルネットワークは,一般のネットワークの発声能力を上回ることができることがわかった。
論文 参考訳(メタデータ) (2020-05-16T23:23:22Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。