論文の概要: A New Approach to Accent Recognition and Conversion for Mandarin Chinese
- arxiv url: http://arxiv.org/abs/2008.03359v1
- Date: Fri, 7 Aug 2020 20:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 00:52:51.684335
- Title: A New Approach to Accent Recognition and Conversion for Mandarin Chinese
- Title(参考訳): 中国語におけるアクセント認識と変換の新しいアプローチ
- Authors: Lin Ai and Shih-Ying Jeng and Homayoon Beigi
- Abstract要約: アクセント分類と変換のための2つの新しいアプローチが提示され、探索された。
最初の話題は中国語のアクセントの分類/認識である。
第2のトピックは、エンコーダ-デコーダモデルを使用して、エンドツーエンドの中国語アクセント変換を行うことだ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two new approaches to accent classification and conversion are presented and
explored, respectively. The first topic is Chinese accent
classification/recognition. The second topic is the use of encoder-decoder
models for end-to-end Chinese accent conversion, where the classifier in the
first topic is used for the training of the accent converter encoder-decoder
model. Experiments using different features and model are performed for accent
recognition. These features include MFCCs and spectrograms. The classifier
models were TDNN and 1D-CNN. On the MAGICDATA dataset with 5 classes of
accents, the TDNN classifier trained on MFCC features achieved a test accuracy
of 54% and a test F1 score of 0.54 while the 1D-CNN classifier trained on
spectrograms achieve a test accuracy of 62% and a test F1 score of 0.62. A
prototype of an end-to-end accent converter model is also presented. The
converter model comprises of an encoder and a decoder. The encoder model
converts an accented input into an accent-neutral form. The decoder model
converts an accent-neutral form to an accented form with the specified accent
assigned by the input accent label. The converter prototype preserves the tone
and foregoes the details in the output audio. An encoder-decoder structure
demonstrates the potential of being an effective accent converter. A proposal
for future improvements is also presented to address the issue of lost details
in the decoder output.
- Abstract(参考訳): アクセント分類と変換の2つの新しいアプローチをそれぞれ提示し,検討した。
最初の話題は中国語のアクセント分類/認識である。
第2のトピックは、エンコーダ-デコーダモデルを使用して中国語アクセント変換を行い、第1のトピックの分類器はアクセント変換器-デコーダモデルのトレーニングに使用される。
アクセント認識のために異なる特徴とモデルを用いた実験を行う。
これらの機能には、MFCCとスペクトログラムが含まれる。
分類モデルはTDNNと1D-CNNである。
5種類のアクセントを持つMAGICDATAデータセットでは、MFCCで訓練されたTDNN分類器は54%、テストF1スコアは0.54、分光器で訓練された1D-CNN分類器は62%、テストF1スコアは0.62であった。
エンド・ツー・エンドアクセント変換モデルのプロトタイプも提示されている。
変換器モデルは、エンコーダとデコーダとからなる。
エンコーダモデルはアクセント入力をアクセントニュートラル形式に変換する。
デコーダモデルは、入力アクセントラベルに割り当てられた特定アクセントでアクセントニュートラル形式をアクセント付形式に変換する。
コンバータプロトタイプは、トーンを保存し、出力オーディオ内の詳細を予見する。
エンコーダ−デコーダ構造は、効果的なアクセント変換器となる可能性を示す。
将来的な改善の提案も提示され、デコーダ出力における詳細が失われている問題に対処する。
関連論文リスト
- Prompting and Adapter Tuning for Self-supervised Encoder-Decoder Speech
Model [84.12646619522774]
本稿では,自己教師付きエンコーダデコーダモデルであるWav2Seqのプロンプトが,従来のシーケンス生成タスクよりも優れていることを示す。
ASRでは単語誤り率が53%向上し,スロットフィリングではF1スコアが27%向上した。
また、言語間ASRにおけるWav2Seq上でのプロンプトとアダプタチューニングの転送可能性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:07:32Z) - Linguistic-Enhanced Transformer with CTC Embedding for Speech
Recognition [29.1423215212174]
関節CTC-Attention モデルの最近の動向は自動音声認識(ASR)において顕著に改善されている
本稿では,訓練中にデコーダに改良されたCTC情報を導入する言語拡張トランスフォーマを提案する。
AISHELL-1音声コーパスの実験では、文字誤り率(CER)は7%まで相対的に減少している。
論文 参考訳(メタデータ) (2022-10-25T08:12:59Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Multi-Level Modeling Units for End-to-End Mandarin Speech Recognition [9.930655347717932]
マンダリンのシナリオでは、漢字は意味を表すが、発音に直接関係しない。
マンダリン音声認識のための多レベル情報を統合する多レベルモデリングユニットを含む新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-24T11:43:54Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Dual-Encoder Architecture with Encoder Selection for Joint Close-Talk
and Far-Talk Speech Recognition [6.618254914001219]
本稿では、近接語(CT)と遠方語(FT)の連成モデリングのための二重エンコーダASRアーキテクチャを提案する。
提案したデュアルエンコーダアーキテクチャは、CTとFTの両方の入力を使用する場合、最大9%の相対的なWER削減が得られる。
論文 参考訳(メタデータ) (2021-09-17T19:52:47Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained
Models into Speech Translation Encoders [30.160261563657947]
エンドツーエンドの音声翻訳では、事前トレーニングが有望です。
Stackedを提案します。
音声翻訳のための音響・テキスト(SATE)法
エンコーダはアコースティックシーケンスを通常どおりに処理することから始まり、その後はアコースティックシーケンスのように振る舞う。
MTエンコーダは入力シーケンスのグローバル表現である。
論文 参考訳(メタデータ) (2021-05-12T16:09:53Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。