論文の概要: Transcript-Prompted Whisper with Dictionary-Enhanced Decoding for Japanese Speech Annotation
- arxiv url: http://arxiv.org/abs/2506.07646v1
- Date: Mon, 09 Jun 2025 11:10:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.927769
- Title: Transcript-Prompted Whisper with Dictionary-Enhanced Decoding for Japanese Speech Annotation
- Title(参考訳): 辞書強調復号機能付きトランスクリプト・プロンプド・ウィスパー
- Authors: Rui Hu, Xiaolong Lin, Jiawang Liu, Shixi Huang, Zhenpeng Zhan,
- Abstract要約: 音声と韻律のラベルを与えられた音声と音声のペアにアノテートする方法を提案する。
音韻ラベリングにおける誤りの訂正に辞書事前知識を用いた復号方式を用いる。
提案手法を用いてアノテートしたラベルで訓練したTTSモデルにより合成された音声の自然性は,手動のアノテーションで訓練したモデルに匹敵することを示す。
- 参考スコア(独自算出の注目度): 4.314729314139958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a method for annotating phonemic and prosodic labels on a given audio-transcript pair, aimed at constructing Japanese text-to-speech (TTS) datasets. Our approach involves fine-tuning a large-scale pre-trained automatic speech recognition (ASR) model, conditioned on ground truth transcripts, to simultaneously output phrase-level graphemes and annotation labels. To further correct errors in phonemic labeling, we employ a decoding strategy that utilizes dictionary prior knowledge. The objective evaluation results demonstrate that our proposed method outperforms previous approaches relying solely on text or audio. The subjective evaluation results indicate that the naturalness of speech synthesized by the TTS model, trained with labels annotated using our method, is comparable to that of a model trained with manual annotations.
- Abstract(参考訳): 本稿では,日本語音声合成(TTS)データセットの構築を目的とした,音声と韻律のラベルを与えられた音声書き起こしペアにアノテートする手法を提案する。
提案手法では, 大規模事前学習型音声認識(ASR)モデルの微調整を行い, 単語レベルグラフとアノテーションラベルを同時に出力する。
音韻ラベリングにおける誤りの補正には,辞書事前知識を利用した復号方式を用いる。
提案手法は,テキストや音声のみに依存する従来の手法よりも優れていることを示す。
提案手法を用いてアノテートしたラベルで訓練したTTSモデルにより合成された音声の自然性は,手動のアノテーションで訓練したモデルに匹敵することを示す。
関連論文リスト
- Grapheme-Coherent Phonemic and Prosodic Annotation of Speech by Implicit and Explicit Grapheme Conditioning [9.413818055887763]
本稿では,グラテムに忠実な音声の音素ラベルと韻律ラベルを得るモデルを提案する。
実験の結果,提案手法はグラフエムと予測ラベルとの整合性を著しく改善した。
論文 参考訳(メタデータ) (2025-06-05T00:24:00Z) - Automatic Text Pronunciation Correlation Generation and Application for Contextual Biasing [17.333427709985376]
本稿では,自動テキスト発音相関(ATPC)という,発音相関を自動的に取得するデータ駆動手法を提案する。
マンダリンの実験結果から,ATPCはコンテキストバイアス下でのE2E-ASR性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-01-01T11:10:46Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Automatic Prosody Annotation with Pre-Trained Text-Speech Model [48.47706377700962]
本稿では,事前学習した音声エンコーダを用いたニューラルテキスト音声モデルを用いて,テキストオーディオデータから韻律境界ラベルを自動的に抽出する。
このモデルは、テキストデータと音声データに個別に事前訓練され、TTSデータを三重奏形式(音声、テキスト、韻律)で微調整する。
論文 参考訳(メタデータ) (2022-06-16T06:54:16Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Word Order Does Not Matter For Speech Recognition [35.96275156733138]
全ての出力フレームの分布を集約する単語レベル音響モデルを訓練する。
次に、コネクショニストの時間的分類損失を用いて文字ベース音響モデルを訓練する。
本システムでは,LibriSpeechの2.4%/5.3%をテストクリーン/テスト-その他のサブセットで実現している。
論文 参考訳(メタデータ) (2021-10-12T13:35:01Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。