論文の概要: Integrating Categorical Features in End-to-End ASR
- arxiv url: http://arxiv.org/abs/2110.03047v1
- Date: Wed, 6 Oct 2021 20:07:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-09 11:40:49.652324
- Title: Integrating Categorical Features in End-to-End ASR
- Title(参考訳): エンドツーエンドASRにおけるカテゴリ的特徴の統合
- Authors: Rongqing Huang
- Abstract要約: 全神経終末のASRシステムは、単一のトレーニング可能なニューラルネットワークモデルを用いて音声入力をテキスト単位に変換する。
E2Eモデルは、入手するのに高価な大量のペア音声テキストデータを必要とする。
分類的特徴をE2Eモデルに組み込む方法を提案する。
- 参考スコア(独自算出の注目度): 1.332560004325655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: All-neural, end-to-end ASR systems gained rapid interest from the speech
recognition community. Such systems convert speech input to text units using a
single trainable neural network model. E2E models require large amounts of
paired speech text data that is expensive to obtain. The amount of data
available varies across different languages and dialects. It is critical to
make use of all these data so that both low resource languages and high
resource languages can be improved. When we want to deploy an ASR system for a
new application domain, the amount of domain specific training data is very
limited. To be able to leverage data from existing domains is important for ASR
accuracy in the new domain. In this paper, we treat all these aspects as
categorical information in an ASR system, and propose a simple yet effective
way to integrate categorical features into E2E model. We perform detailed
analysis on various training strategies, and find that building a joint model
that includes categorical features can be more accurate than multiple
independently trained models.
- Abstract(参考訳): all-neural, end-to-end asrシステムは音声認識コミュニティから急速に注目を集めた。
このようなシステムは、単一のトレーニング可能なニューラルネットワークモデルを用いて、音声入力をテキスト単位に変換する。
E2Eモデルは、入手するのに高価な大量のペア音声テキストデータを必要とする。
利用可能なデータの量は言語や方言によって異なる。
これらのデータをすべて利用すれば、低リソース言語と高リソース言語の両方を改善することが可能になります。
新しいアプリケーションドメインのためにasrシステムをデプロイしたい場合、ドメイン固有のトレーニングデータの量は非常に限られています。
既存のドメインからのデータを活用できることは、新しいドメインにおけるASRの精度にとって重要である。
本稿では,これら全ての側面をASRシステムにおける分類情報として扱うとともに,分類的特徴をE2Eモデルに統合する簡易かつ効果的な方法を提案する。
様々なトレーニング戦略に関する詳細な分析を行い,複数の個別学習モデルよりもカテゴリ的特徴を含むジョイントモデルの構築が正確であることを見出した。
関連論文リスト
- Enabling ASR for Low-Resource Languages: A Comprehensive Dataset Creation Approach [0.6445605125467574]
本研究では,オーディオブックからASRトレーニングデータセットを生成するための新しいパイプラインを提案する。
これらのオーディオブックの共通構造は、音声セグメントの幅が広いため、ユニークな課題である。
本稿では,音声を対応するテキストと効果的に整合させ,それをASR訓練に適した長さに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T15:38:40Z) - Server-side Rescoring of Spoken Entity-centric Knowledge Queries for
Virtual Assistants [5.996525771249284]
本研究では,音声情報ドメインクエリのサーバ側再構成のためのモデリング手法を実証研究する。
様々なエンティティ中心のクエリサブポピュレーションにおいて、WERは23%-35%の大幅な改善を示した。
また、スクラッチから訓練した複数のサーバサイドLMのモデル融合は、各モデルの相補的な強度を最も効果的に組み合わせていることを示す。
論文 参考訳(メタデータ) (2023-11-02T17:07:23Z) - Learning towards Selective Data Augmentation for Dialogue Generation [52.540330534137794]
すべての事例が増補作業に有益である訳ではなく、増補に適した事例は以下の2つの属性に従うべきであると我々は主張する。
応答生成タスクに対してSDA(Selective Data Augmentation framework)を提案する。
論文 参考訳(メタデータ) (2023-03-17T01:26:39Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。
この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。
Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文 参考訳(メタデータ) (2022-02-02T21:17:14Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z) - Bootstrap an end-to-end ASR system by multilingual training, transfer
learning, text-to-text mapping and synthetic audio [8.510792628268824]
限られたデータリソースでの音声認識のブートストラップは、長い間活発な研究領域だった。
本稿では,低資源環境下でRNN-Transducerに基づく音声認識システム(ASR)をブートストラップする様々な手法の有効性について検討する。
実験では,ASR後のテキスト・テキスト・マッピングと合成音声を用いた多言語モデルからの変換学習が付加的な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2020-11-25T13:11:32Z) - Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic
Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。
近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。
そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:47:53Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - Contextual RNN-T For Open Domain ASR [41.83409885125617]
自動音声認識(ASR)のためのエンドツーエンド(E2E)システムは、従来のハイブリッドASRシステムの個々のコンポーネントを1つのニューラルネットワークに混ぜる。
これは優れた利点があり、ペアオーディオとテキストのみを使用してシステムをトレーニングすることを制限する。
このため、E2Eモデルは、エンティティ名などのトレーニング中に頻繁に見られることのない稀な単語を正しく認識することが困難になる傾向にある。
本稿では,RNN-Tモデルに改良を加えて,これらの名前付きエンティティワードの性能向上を目的としたメタデータテキストの追加を可能にする。
論文 参考訳(メタデータ) (2020-06-04T04:37:03Z) - Hybrid Generative-Retrieval Transformers for Dialogue Domain Adaptation [77.62366712130196]
マルチドメイン MetaLWOz データセットに微調整した GPT-2 に基づくハイブリッド生成・検索モデル DSTC8 の高速領域適応タスクにおける入賞条件について述べる。
提案モデルでは,MetaLWOz上の解析論理をフォールバックとして使用し,人間の評価におけるSoTA(第2位システムよりも4%向上)と,未知のMultiWOZデータセットに適応した競合一般化性能を実現する。
論文 参考訳(メタデータ) (2020-03-03T18:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。