論文の概要: Text-only Domain Adaptation using Unified Speech-Text Representation in
Transducer
- arxiv url: http://arxiv.org/abs/2306.04076v1
- Date: Wed, 7 Jun 2023 00:33:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 16:36:20.410878
- Title: Text-only Domain Adaptation using Unified Speech-Text Representation in
Transducer
- Title(参考訳): トランスデューサにおける統一音声テキスト表現を用いたテキストのみのドメイン適応
- Authors: Lu Huang, Boyu Li, Jun Zhang, Lu Lu, Zejun Ma
- Abstract要約: 本稿では,コンバータ変換器(USTR-CT)における統一音声テキスト表現を学習し,テキストのみのコーパスを用いて高速なドメイン適応を実現する手法を提案する。
SPGISpeechにLibriSpeechを適応させる実験により,提案手法は単語誤り率(WER)を目標領域で相対44%削減することを示した。
- 参考スコア(独自算出の注目度): 12.417314740402587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain adaptation using text-only corpus is challenging in end-to-end(E2E)
speech recognition. Adaptation by synthesizing audio from text through TTS is
resource-consuming. We present a method to learn Unified Speech-Text
Representation in Conformer Transducer(USTR-CT) to enable fast domain
adaptation using the text-only corpus. Different from the previous textogram
method, an extra text encoder is introduced in our work to learn text
representation and is removed during inference, so there is no modification for
online deployment. To improve the efficiency of adaptation, single-step and
multi-step adaptations are also explored. The experiments on adapting
LibriSpeech to SPGISpeech show the proposed method reduces the word error
rate(WER) by relatively 44% on the target domain, which is better than those of
TTS method and textogram method. Also, it is shown the proposed method can be
combined with internal language model estimation(ILME) to further improve the
performance.
- Abstract(参考訳): テキストのみのコーパスを用いたドメイン適応は、エンドツーエンド(E2E)音声認識では困難である。
テキストからttsを介して音声を合成することで適応することはリソース消費である。
本稿では,コンフォーメータトランスデューサ(ustr-ct)における統一音声テキスト表現を学習し,テキストのみのコーパスを用いた高速ドメイン適応を実現する手法を提案する。
従来のテキストグラム法と異なり,テキスト表現を学習するために追加のテキストエンコーダが導入され,推論中に削除されるため,オンライン展開への修正は行われない。
適応効率を向上させるため、単段適応と多段適応も検討されている。
librispeech を spgispeech に適応させる実験により,提案手法はターゲット領域における単語誤り率(wer)を,tts 法やテキストグラム法よりも44%低減することを示した。
また,提案手法を内部言語モデル推定(ILME)と組み合わせることで,さらなる性能向上が期待できることを示した。
関連論文リスト
- FluentEditor+: Text-based Speech Editing by Modeling Local Hierarchical Acoustic Smoothness and Global Prosody Consistency [40.95700389032375]
テキストベースの音声編集(TSE)では、ユーザーは対応するテキストを編集し、カット、コピー、ペーストなどの操作を実行することで音声を修正できる。
現在のTSE技術は、生成した音声と、編集されたセグメント内の参照ターゲットとの相違を最小化することに焦点を当てている。
音声の未修正部分と 編集部分のシームレスな統合は 難しいままです
本稿ではこれらの制限を克服するために設計された新しいアプローチであるFluentEditor$tiny +$を紹介する。
論文 参考訳(メタデータ) (2024-09-28T10:18:35Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - FluentEditor: Text-based Speech Editing by Considering Acoustic and
Prosody Consistency [44.7425844190807]
テキストベースの音声編集(TSE)技術は、ユーザが音声自体の代わりに入力テキストの書き起こしを変更することで出力オーディオを編集できるように設計されている。
本稿では,TSE訓練における流速を考慮した訓練基準を考慮し,流速音声編集モデルであるtextitFluentEditorを提案する。
VCTKの主観的および客観的な実験結果から,本論文のテキストFluentEditorは,自然性や流布性の観点から,すべての高度なベースラインを上回ります。
論文 参考訳(メタデータ) (2023-09-21T01:58:01Z) - Text-Only Domain Adaptation for End-to-End Speech Recognition through
Down-Sampling Acoustic Representation [67.98338382984556]
音声とテキストの2つのモダリティを共有表現空間にマッピングすることは、テキストのみのデータを用いて、新しいドメインにおけるエンドツーエンドの自動音声認識(ASR)の性能を改善する研究トピックである。
本稿では,テキストのモダリティに合わせるために,ダウンサンプリング音響表現を用いた新しい表現手法を提案する。
我々のASRモデルは、両方のモダリティから統一表現をよりよく学習することができ、ターゲットドメインのテキストのみのデータを用いたドメイン適応を可能にします。
論文 参考訳(メタデータ) (2023-09-04T08:52:59Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。