論文の概要: Exploring TTS without T Using Biologically/Psychologically Motivated
Neural Network Modules (ZeroSpeech 2020)
- arxiv url: http://arxiv.org/abs/2005.05487v3
- Date: Mon, 10 Aug 2020 09:13:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 19:45:14.666209
- Title: Exploring TTS without T Using Biologically/Psychologically Motivated
Neural Network Modules (ZeroSpeech 2020)
- Title(参考訳): 生物学的・心理学的動機付けニューラルネットワークモジュールを用いたttの探索(zerospeech 2020)
- Authors: Takashi Morita and Hiroki Koda
- Abstract要約: 我々は、音声認識とTSを一緒に学習するエンドツーエンドの教師なしシステムについて報告した。
ニューラルネットワーク(ANN)の生物学的・心理学的モチベーションを用いた課題に対処した。
離散化信号は、音声生成のための音源-フィルタモデルのニューラル・ネットワーク実装により、音声波形に変換される。
- 参考スコア(独自算出の注目度): 4.94950858749529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we reported our exploration of Text-To-Speech without Text
(TTS without T) in the Zero Resource Speech Challenge 2020, in which
participants proposed an end-to-end, unsupervised system that learned speech
recognition and TTS together. We addressed the challenge using
biologically/psychologically motivated modules of Artificial Neural Networks
(ANN), with a particular interest in unsupervised learning of human language as
a biological/psychological problem. The system first processes Mel Frequency
Cepstral Coefficient (MFCC) frames with an Echo-State Network (ESN), and
simulates computations in cortical microcircuits. The outcome is discretized by
our original Variational Autoencoder (VAE) that implements the Dirichlet-based
Bayesian clustering widely accepted in computational linguistics and cognitive
science. The discretized signal is then reverted into sound waveform via a
neural-network implementation of the source-filter model for speech production.
- Abstract(参考訳): 本研究では、Zero Resource Speech Challenge 2020において、テキストなし音声(TTS)の探索を報告し、参加者が音声認識とTSを一緒に学習するエンドツーエンドの教師なしシステムを提案した。
ニューラルネットワーク(ANN)の生物学的・心理学的モチベーションを持つモジュールを用いて,人間の言語を生物学的・心理学的問題として教師なし学習することに関心を持つ。
このシステムはまず、Mel Frequency Cepstral Coefficient (MFCC)フレームをEcho-State Network (ESN)で処理し、皮質マイクロ回路内の計算をシミュレートする。
この結果は、ディリクレに基づくベイズクラスタリングを実装し、計算言語学や認知科学で広く受け入れられている変分オートエンコーダ(VAE)によって識別される。
離散化信号は、音声生成のためのソースフィルタモデルのニューラルネットワーク実装によって音声波形に変換される。
関連論文リスト
- NeuGPT: Unified multi-modal Neural GPT [48.70587003475798]
NeuGPTは、ニューラルネットワーク研究の断片化された風景を調和させるために設計された、画期的なマルチモーダル言語生成モデルである。
我々のモデルは主に脳からテキストへのデコーディングに焦点をあて、BLEU-1では6.94から12.92に、ROUGE-1Fでは6.93から13.06に改善した。
また、脳の信号をシミュレートし、新しい神経インターフェースとして機能する。
論文 参考訳(メタデータ) (2024-10-28T10:53:22Z) - On the Problem of Text-To-Speech Model Selection for Synthetic Data Generation in Automatic Speech Recognition [31.58289343561422]
合成データ生成の範囲内で, 5種類のTSデコーダアーキテクチャを比較し, CTCに基づく音声認識学習への影響を示す。
データ生成における自己回帰復号法は,非自己回帰復号法よりも優れており,TTS一般化能力を定量化するためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-31T09:37:27Z) - DeepSpeech models show Human-like Performance and Processing of Cochlear Implant Inputs [12.234206036041218]
我々は、ディープニューラルネットワーク(DNN)のDeepSpeech2をパラダイムとして、自然入力と人工内耳ベースの入力が時間の経過とともにどのように処理されるかを調べる。
音声文から自然言語および人工内耳のような入力を生成し、モデル性能と人的性能の類似性を検証した。
各レイヤにおける時間的ダイナミクスは、コンテキストや入力タイプの影響を受けます。
論文 参考訳(メタデータ) (2024-07-30T04:32:27Z) - Transduce and Speak: Neural Transducer for Text-to-Speech with Semantic
Token Prediction [14.661123738628772]
本稿では,ニューラルトランスデューサに基づくテキスト音声合成(TTS)フレームワークを提案する。
We use discretized semantic tokens acquired from wav2vec2.0 embeddeddings, which makes it easy to adopt a neural transducer for the TTS framework enjoy its monotonic alignment constraints。
論文 参考訳(メタデータ) (2023-11-06T06:13:39Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Multi-Task Adversarial Training Algorithm for Multi-Speaker Neural
Text-to-Speech [29.34041347120446]
従来のGANに基づく学習アルゴリズムは,合成音声の品質を著しく向上させる。
本稿では,マルチタスク逆学習に基づくマルチ話者ニューラルテキスト音声(TTS)モデルの新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T10:10:40Z) - Speech recognition for air traffic control via feature learning and
end-to-end training [8.755785876395363]
本稿では,特徴学習に基づく新しい自動音声認識(ASR)システムと,航空交通制御(ATC)システムのためのエンドツーエンドトレーニング手順を提案する。
提案モデルでは、特徴学習ブロック、リカレントニューラルネットワーク(RNN)、コネクショニストの時間的分類損失を統合する。
生波形から表現を学習する能力により、提案したモデルは完全なエンドツーエンドで最適化できる。
論文 参考訳(メタデータ) (2021-11-04T06:38:21Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。