論文の概要: Text-Only Domain Adaptation for End-to-End Speech Recognition through
Down-Sampling Acoustic Representation
- arxiv url: http://arxiv.org/abs/2309.02459v1
- Date: Mon, 4 Sep 2023 08:52:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 18:05:13.044123
- Title: Text-Only Domain Adaptation for End-to-End Speech Recognition through
Down-Sampling Acoustic Representation
- Title(参考訳): ダウンサンプリング音響表現によるエンドツーエンド音声認識のためのテキストオンリードメイン適応
- Authors: Jiaxu Zhu, Weinan Tong, Yaoxun Xu, Changhe Song, Zhiyong Wu, Zhao You,
Dan Su, Dong Yu, Helen Meng
- Abstract要約: 音声とテキストの2つのモダリティを共有表現空間にマッピングすることは、テキストのみのデータを用いて、新しいドメインにおけるエンドツーエンドの自動音声認識(ASR)の性能を改善する研究トピックである。
本稿では,テキストのモダリティに合わせるために,ダウンサンプリング音響表現を用いた新しい表現手法を提案する。
我々のASRモデルは、両方のモダリティから統一表現をよりよく学習することができ、ターゲットドメインのテキストのみのデータを用いたドメイン適応を可能にします。
- 参考スコア(独自算出の注目度): 67.98338382984556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mapping two modalities, speech and text, into a shared representation space,
is a research topic of using text-only data to improve end-to-end automatic
speech recognition (ASR) performance in new domains. However, the length of
speech representation and text representation is inconsistent. Although the
previous method up-samples the text representation to align with acoustic
modality, it may not match the expected actual duration. In this paper, we
proposed novel representations match strategy through down-sampling acoustic
representation to align with text modality. By introducing a continuous
integrate-and-fire (CIF) module generating acoustic representations consistent
with token length, our ASR model can learn unified representations from both
modalities better, allowing for domain adaptation using text-only data of the
target domain. Experiment results of new domain data demonstrate the
effectiveness of the proposed method.
- Abstract(参考訳): 音声とテキストの2つのモダリティを共有表現空間にマッピングすることは、テキストのみのデータを用いて、新しいドメインにおけるエンドツーエンドの自動音声認識(ASR)の性能を改善する研究トピックである。
しかし、音声表現とテキスト表現の長さは一致しない。
前者は、テキスト表現を音響モダリティに合わせるようにサンプリングするが、実際の継続時間には一致しない。
本稿では,テキストのモダリティに合わせるために,ダウンサンプリングによる音響表現による新しい表現マッチング戦略を提案する。
トークン長に整合した音響表現を生成するCIF(Continuous Integration-and-fire)モジュールを導入することにより,ASRモデルは両モードからの統一表現をよりよく学習し,対象ドメインのテキストのみのデータを用いたドメイン適応を可能にする。
提案手法の有効性を示す新しい領域データの実験結果を得た。
関連論文リスト
- ASTRA: Aligning Speech and Text Representations for Asr without Sampling [20.925353958092874]
ASTRAはテキスト注入による音声認識(ASR)を改善する新しい手法である。
一般的な技法とは異なり、ASTRAは音声とテキストのモダリティ間のシーケンス長をサンプリングする必要がない。
論文 参考訳(メタデータ) (2024-06-10T15:39:04Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Augmenting text for spoken language understanding with Large Language
Models [13.240782495441275]
対応する音声を使わずに書き起こし構文解析データ(未ペアテキスト)の使い方を示す。
実験の結果、既存のドメインと新しいドメインの未ペアテキストは、絶対的エクサクトマッチ(EM)において、それぞれ2%と30%の性能を向上させることがわかった。
本稿では,既存のドメインや新しいドメインに対する未ペアテキストを生成するために,LLM(Large Language Models)を提案する。
論文 参考訳(メタデータ) (2023-09-17T22:25:34Z) - Improving Joint Speech-Text Representations Without Alignment [92.60384956736536]
本研究では, 連続長を無視することで, 音節間の一貫した表現を自然に実現できることを示す。
一貫性の喪失は長さの差を許し、最適のアライメントを前提にできると我々は主張する。
論文 参考訳(メタデータ) (2023-08-11T13:28:48Z) - Zero-shot Domain-sensitive Speech Recognition with Prompt-conditioning
Fine-tuning [11.585880477614495]
我々は,各ドメインの未知のデータセットに対して,ワード誤り率(WER)を最大33%削減できることを示す。
我々は本手法をテキストのみの微調整に拡張し、ドメインの感度とドメイン適応を実現する。
論文 参考訳(メタデータ) (2023-07-18T06:45:43Z) - Text-only Domain Adaptation using Unified Speech-Text Representation in
Transducer [12.417314740402587]
本稿では,コンバータ変換器(USTR-CT)における統一音声テキスト表現を学習し,テキストのみのコーパスを用いて高速なドメイン適応を実現する手法を提案する。
SPGISpeechにLibriSpeechを適応させる実験により,提案手法は単語誤り率(WER)を目標領域で相対44%削減することを示した。
論文 参考訳(メタデータ) (2023-06-07T00:33:02Z) - A Simple Baseline for Domain Adaptation in End to End ASR Systems Using
Synthetic Data [1.14219428942199]
エンドツーエンド音声認識モデルにおけるドメイン適応のための簡単なベースライン手法を提案する。
テキストのみのコーパスを単一話者テキスト音声(TTS)エンジンを用いて音声データに変換する。
単一話者合成TTSデータと最終密度層を結合した微調整が単語誤り率の合理的な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:07:38Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。