論文の概要: Naturalization of Text by the Insertion of Pauses and Filler Words
- arxiv url: http://arxiv.org/abs/2011.03713v1
- Date: Sat, 7 Nov 2020 06:56:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 22:35:05.232176
- Title: Naturalization of Text by the Insertion of Pauses and Filler Words
- Title(参考訳): パウス語とフィラー語の挿入によるテキストの自然化
- Authors: Richa Sharma, Parth Vipul Shah, Ashwini M. Joshi
- Abstract要約: そこで本研究では,自然音声に基づくテキストの自然化手法を提案する。
最初のテキスト変換法では、トレーニングデータ中のビッグラムの周波数を用いて入力文に適切な挿入を行う。
第2の方法は、リカレントニューラルネットワークを使用して、挿入される次の単語を予測する。
- 参考スコア(独自算出の注目度): 0.9330780753057821
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this article, we introduce a set of methods to naturalize text based on
natural human speech. Voice-based interactions provide a natural way of
interfacing with electronic systems and are seeing a widespread adaptation of
late. These computerized voices can be naturalized to some degree by inserting
pauses and filler words at appropriate positions. The first proposed text
transformation method uses the frequency of bigrams in the training data to
make appropriate insertions in the input sentence. It uses a probability
distribution to choose the insertions from a set of all possible insertions.
This method is fast and can be included before a Text-To-Speech module. The
second method uses a Recurrent Neural Network to predict the next word to be
inserted. It confirms the insertions given by the bigram method. Additionally,
the degree of naturalization can be controlled in both these methods. On the
conduction of a blind survey, we conclude that the output of these text
transformation methods is comparable to natural speech.
- Abstract(参考訳): 本稿では,自然言語に基づくテキストの自然化手法について紹介する。
音声による対話は、電子システムと対面する自然な方法を提供し、最近は広く適応している。
これらのコンピュータ音声は、停止語とフィラー語を適切な位置に挿入することである程度自然化することができる。
最初のテキスト変換法では、トレーニングデータ中のビッグラムの周波数を用いて入力文に適切な挿入を行う。
確率分布を用いて、可能な全ての挿入の集合から挿入を選択する。
この方法は高速で、Text-To-Speechモジュールの前に含めることができる。
第2の方法は、再帰ニューラルネットワークを使用して、挿入される次の単語を予測する。
これは Bigram メソッドによる挿入を確認します。
さらに、これらの方法でも自然化の程度を制御できる。
ブラインドサーベイの結果から,これらのテキスト変換手法の出力は自然発話に匹敵するものと結論づけた。
関連論文リスト
- Improving End-to-end Speech Translation by Leveraging Auxiliary Speech
and Text Data [38.816953592085156]
本稿では,事前学習したエンドツーエンド音声翻訳システムにテキストエンコーダを導入する方法を提案する。
これは、あるモダリティ(すなわち、ソース言語音声)を他の(すなわち、ソース言語テキスト)に適応する能力を高める。
論文 参考訳(メタデータ) (2022-12-04T09:27:56Z) - Assessing Phrase Break of ESL speech with Pre-trained Language Models [6.635783609515407]
本研究は,事前学習言語モデル(PLM)を用いたESL学習者の発話におけるフレーズブレークの評価手法を提案する。
従来の手法とは異なり、この提案では音声をトークンシーケンスに変換し、PLMのパワーを活用する。
論文 参考訳(メタデータ) (2022-10-28T10:06:06Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Automatic Prosody Annotation with Pre-Trained Text-Speech Model [48.47706377700962]
本稿では,事前学習した音声エンコーダを用いたニューラルテキスト音声モデルを用いて,テキストオーディオデータから韻律境界ラベルを自動的に抽出する。
このモデルは、テキストデータと音声データに個別に事前訓練され、TTSデータを三重奏形式(音声、テキスト、韻律)で微調整する。
論文 参考訳(メタデータ) (2022-06-16T06:54:16Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - CampNet: Context-Aware Mask Prediction for End-to-End Text-Based Speech
Editing [67.96138567288197]
本稿では,コンテキスト認識型マスク予測ネットワーク(CampNet)と呼ばれる,エンドツーエンドのテキストベースの音声編集手法を提案する。
モデルは、音声の一部をランダムにマスキングしてテキストベースの音声編集プロセスをシミュレートし、音声コンテキストを感知してマスキング領域を予測する。
編集された領域における不自然な韻律を解き、テキスト中の不明瞭な単語に対応する音声を合成することができる。
論文 参考訳(メタデータ) (2022-02-21T02:05:14Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Improving Prosody Modelling with Cross-Utterance BERT Embeddings for
End-to-end Speech Synthesis [39.869097209615724]
事前訓練されたBERTモデルにより抽出された文埋め込みに基づいて、追加のCUエンコーダにより、CUコンテキストベクトルを生成する。
また, 近隣の文を変化させることで, 間接的に韻律を制御できることが判明した。
論文 参考訳(メタデータ) (2020-11-06T10:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。