論文の概要: A New Approach to Accent Recognition and Conversion for Mandarin Chinese
- arxiv url: http://arxiv.org/abs/2008.03359v1
- Date: Fri, 7 Aug 2020 20:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 00:52:51.684335
- Title: A New Approach to Accent Recognition and Conversion for Mandarin Chinese
- Title(参考訳): 中国語におけるアクセント認識と変換の新しいアプローチ
- Authors: Lin Ai and Shih-Ying Jeng and Homayoon Beigi
- Abstract要約: アクセント分類と変換のための2つの新しいアプローチが提示され、探索された。
最初の話題は中国語のアクセントの分類/認識である。
第2のトピックは、エンコーダ-デコーダモデルを使用して、エンドツーエンドの中国語アクセント変換を行うことだ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two new approaches to accent classification and conversion are presented and
explored, respectively. The first topic is Chinese accent
classification/recognition. The second topic is the use of encoder-decoder
models for end-to-end Chinese accent conversion, where the classifier in the
first topic is used for the training of the accent converter encoder-decoder
model. Experiments using different features and model are performed for accent
recognition. These features include MFCCs and spectrograms. The classifier
models were TDNN and 1D-CNN. On the MAGICDATA dataset with 5 classes of
accents, the TDNN classifier trained on MFCC features achieved a test accuracy
of 54% and a test F1 score of 0.54 while the 1D-CNN classifier trained on
spectrograms achieve a test accuracy of 62% and a test F1 score of 0.62. A
prototype of an end-to-end accent converter model is also presented. The
converter model comprises of an encoder and a decoder. The encoder model
converts an accented input into an accent-neutral form. The decoder model
converts an accent-neutral form to an accented form with the specified accent
assigned by the input accent label. The converter prototype preserves the tone
and foregoes the details in the output audio. An encoder-decoder structure
demonstrates the potential of being an effective accent converter. A proposal
for future improvements is also presented to address the issue of lost details
in the decoder output.
- Abstract(参考訳): アクセント分類と変換の2つの新しいアプローチをそれぞれ提示し,検討した。
最初の話題は中国語のアクセント分類/認識である。
第2のトピックは、エンコーダ-デコーダモデルを使用して中国語アクセント変換を行い、第1のトピックの分類器はアクセント変換器-デコーダモデルのトレーニングに使用される。
アクセント認識のために異なる特徴とモデルを用いた実験を行う。
これらの機能には、MFCCとスペクトログラムが含まれる。
分類モデルはTDNNと1D-CNNである。
5種類のアクセントを持つMAGICDATAデータセットでは、MFCCで訓練されたTDNN分類器は54%、テストF1スコアは0.54、分光器で訓練された1D-CNN分類器は62%、テストF1スコアは0.62であった。
エンド・ツー・エンドアクセント変換モデルのプロトタイプも提示されている。
変換器モデルは、エンコーダとデコーダとからなる。
エンコーダモデルはアクセント入力をアクセントニュートラル形式に変換する。
デコーダモデルは、入力アクセントラベルに割り当てられた特定アクセントでアクセントニュートラル形式をアクセント付形式に変換する。
コンバータプロトタイプは、トーンを保存し、出力オーディオ内の詳細を予見する。
エンコーダ−デコーダ構造は、効果的なアクセント変換器となる可能性を示す。
将来的な改善の提案も提示され、デコーダ出力における詳細が失われている問題に対処する。
関連論文リスト
- Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Convert and Speak: Zero-shot Accent Conversion with Minimum Supervision [16.21891840664049]
アクセント変換問題の鍵となる課題は、並列データの低リソースである。
本稿では,意味トークンレベルでのみ変換を行う2段階生成フレームワーク"Convert-and-speak"を提案する。
このフレームワークは、15分程度の弱い並列データでアクセント類似性、音声品質、話者維持の最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-19T15:33:59Z) - Prompting and Adapter Tuning for Self-supervised Encoder-Decoder Speech
Model [84.12646619522774]
本稿では,自己教師付きエンコーダデコーダモデルであるWav2Seqのプロンプトが,従来のシーケンス生成タスクよりも優れていることを示す。
ASRでは単語誤り率が53%向上し,スロットフィリングではF1スコアが27%向上した。
また、言語間ASRにおけるWav2Seq上でのプロンプトとアダプタチューニングの転送可能性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:07:32Z) - Linguistic-Enhanced Transformer with CTC Embedding for Speech
Recognition [29.1423215212174]
関節CTC-Attention モデルの最近の動向は自動音声認識(ASR)において顕著に改善されている
本稿では,訓練中にデコーダに改良されたCTC情報を導入する言語拡張トランスフォーマを提案する。
AISHELL-1音声コーパスの実験では、文字誤り率(CER)は7%まで相対的に減少している。
論文 参考訳(メタデータ) (2022-10-25T08:12:59Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Multi-Level Modeling Units for End-to-End Mandarin Speech Recognition [9.930655347717932]
マンダリンのシナリオでは、漢字は意味を表すが、発音に直接関係しない。
マンダリン音声認識のための多レベル情報を統合する多レベルモデリングユニットを含む新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-24T11:43:54Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained
Models into Speech Translation Encoders [30.160261563657947]
エンドツーエンドの音声翻訳では、事前トレーニングが有望です。
Stackedを提案します。
音声翻訳のための音響・テキスト(SATE)法
エンコーダはアコースティックシーケンスを通常どおりに処理することから始まり、その後はアコースティックシーケンスのように振る舞う。
MTエンコーダは入力シーケンスのグローバル表現である。
論文 参考訳(メタデータ) (2021-05-12T16:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。