論文の概要: How Much Context Does My Attention-Based ASR System Need?
- arxiv url: http://arxiv.org/abs/2310.15672v1
- Date: Tue, 24 Oct 2023 09:31:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 19:29:17.851452
- Title: How Much Context Does My Attention-Based ASR System Need?
- Title(参考訳): 私の注意に基づくASRシステムはどのくらい必要か?
- Authors: Robert Flynn and Anton Ragni
- Abstract要約: 音響モデルと言語モデルの訓練・評価に使用するシーケンス長のスケーリングが音声認識性能に及ぼす影響について検討する。
約80秒の音響コンテキストによるトレーニングの利点を示し、制限されたコンテキストベースラインから14.9%の相対的な改善を示す。
また、完全長文ASRシステムのビームサーチにより、長文変換言語モデルと組み合わせてシステムを実行する。
- 参考スコア(独自算出の注目度): 3.754737100623716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For the task of speech recognition, the use of more than 30 seconds of
acoustic context during training is uncommon, and under-investigated in
literature. In this work, we examine the effect of scaling the sequence length
used to train/evaluate (dense-attention based) acoustic and language models on
speech recognition performance. For these experiments a dataset of roughly
100,000 pseudo-labelled Spotify podcasts is used, with context lengths of 5
seconds to 1 hour being explored. Zero-shot evaluations on long-format datasets
Earnings-22 and Tedlium demonstrate a benefit from training with around 80
seconds of acoustic context, showing up to a 14.9% relative improvement from a
limited context baseline. Furthermore, we perform a system combination with
long-context transformer language models via beam search for a fully
long-context ASR system, with results that are competitive with the current
state-of-the-art.
- Abstract(参考訳): 音声認識のタスクでは、訓練中の30秒以上の音響コンテキストの使用は珍しく、文献ではあまり調査されていない。
本研究では,音声・言語モデルの学習/評価に使用されるシーケンス長のスケールが音声認識性能に与える影響について検討する。
これらの実験では、約10万の擬似ラベル付きSpotifyポッドキャストのデータセットを使用し、コンテキストの長さは5秒から1時間である。
長文データセットのゼロショット評価 利益-22とtedliumは、約80秒の音響コンテキストでのトレーニングの利点を示し、限られたコンテキストベースラインから14.9%の相対的な改善を示している。
さらに、完全長文ASRシステムのビームサーチにより、長文変換言語モデルとシステム組み合わせを行い、現在の最先端技術と競合する結果を得る。
関連論文リスト
- Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - SCRAPS: Speech Contrastive Representations of Acoustic and Phonetic
Spaces [10.895310812568084]
音声空間と音響空間の共有表現を学習するために,CLIPに基づくモデルを訓練する。
その結果,提案手法は音素変化に敏感であることが示唆された。
その結果,様々な下流アプリケーションにおいて,埋め込みが有用であることを示す実証的証拠を提供する。
論文 参考訳(メタデータ) (2023-07-23T22:18:47Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Two Stage Contextual Word Filtering for Context bias in Unified
Streaming and Non-streaming Transducer [17.835882045443896]
E2E ASRシステムでは、トレーニングデータに頻繁に現れるエンティティなどの単語を認識することは困難である。
本稿では,ストリーミングとストリーミングを併用したE2Eモデルに対して,高品質なコンテキストリストを得るための効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-01-17T07:29:26Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Transferring Voice Knowledge for Acoustic Event Detection: An Empirical
Study [11.825240267691209]
本稿では,話者データセットから抽出した高レベル音声表現を伝達して,音響イベント検出パイプラインを強化する可能性について検討する。
AEDプロセス中に音声と音響の特徴を共同学習するためのデュアルブランチニューラルネットワークアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-07T04:03:21Z) - Improving RNN-T ASR Performance with Date-Time and Location Awareness [6.308539010172309]
文脈情報を個別に使用すると、ベースラインに対して最大3.48%の性能が向上することを示す。
特定の領域では、これらの文脈信号は最大11.5%の改善を示すが、他の領域では顕著な劣化はない。
以上の結果から,ASRモデルの訓練に限られたデータを用いると,文脈信号により性能が大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2021-06-11T05:57:30Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。