論文の概要: Faster, Simpler and More Accurate Hybrid ASR Systems Using Wordpieces
- arxiv url: http://arxiv.org/abs/2005.09150v2
- Date: Sun, 16 Aug 2020 21:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 14:15:28.684632
- Title: Faster, Simpler and More Accurate Hybrid ASR Systems Using Wordpieces
- Title(参考訳): ワードピースを用いた高速・簡易・高精度ハイブリッドASRシステム
- Authors: Frank Zhang, Yongqiang Wang, Xiaohui Zhang, Chunxi Liu, Yatharth
Saraf, Geoffrey Zweig
- Abstract要約: まず、広く使われているLibriSpeechベンチマークにおいて、コンテクストに依存したコンテクスト時間分類システムが最先端の結果を生成することを示す。
次に、ワードピースをモデリング単位としてCTCトレーニングと組み合わせることで、エンジニアリングパイプラインを大幅に単純化できることを示す。
さらにこれらの知見は、融合言語として英語に類似したドイツ語と、凝集言語であるトルコ語という2つの内部的ビデオASRデータセット上で確認した。
- 参考スコア(独自算出の注目度): 23.878073474807607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we first show that on the widely used LibriSpeech benchmark,
our transformer-based context-dependent connectionist temporal classification
(CTC) system produces state-of-the-art results. We then show that using
wordpieces as modeling units combined with CTC training, we can greatly
simplify the engineering pipeline compared to conventional frame-based
cross-entropy training by excluding all the GMM bootstrapping, decision tree
building and force alignment steps, while still achieving very competitive
word-error-rate. Additionally, using wordpieces as modeling units can
significantly improve runtime efficiency since we can use larger stride without
losing accuracy. We further confirm these findings on two internal VideoASR
datasets: German, which is similar to English as a fusional language, and
Turkish, which is an agglutinative language.
- Abstract(参考訳): 本研究は, 広く使用されているLibriSpeechベンチマークにおいて, コンテクストに依存したコネクショニスト時間分類システム(CTC)が, 最先端の結果を生成することを示す。
CTCトレーニングと組み合わせたモデリング単位としてワードピースを使用することで,GMMブートストラップ,決定木構築,強制アライメントステップをすべて排除し,従来のフレームベースのクロスエントロピートレーニングに比べ,エンジニアリングパイプラインを大幅に簡素化することができる。
さらに、ワードピースをモデリング単位として使用すると、精度を損なうことなくより大きなストライドを使用できるため、実行効率が大幅に向上する。
さらに、これらの知見は、融合言語として英語に類似したドイツ語と、凝集言語であるトルコ語の2つの内部ビデオASRデータセットで確認する。
関連論文リスト
- An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Filling in the Gaps: Efficient Event Coreference Resolution using Graph
Autoencoder Networks [0.0]
本稿では,低リソースの言語ドメインに適用されたイベント・コンカレンス・レゾリューション(ECR)の新規かつ効率的な手法を提案する。
ECRをグラフ再構成タスクとすることで、深いセマンティック埋め込みと構造的コア参照チェーンの知識を組み合わせることができる。
提案手法は,オランダの大規模イベントコアスコーパスにおいて,古典的参照ペア法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-18T13:44:58Z) - Shiftable Context: Addressing Training-Inference Context Mismatch in
Simultaneous Speech Translation [0.17188280334580192]
セグメントベース処理を用いたトランスフォーマーモデルは、同時音声翻訳に有効なアーキテクチャである。
トレーニングと推論を通じて一貫したセグメントとコンテキストサイズを確実に維持するために、シフト可能なコンテキストを提案する。
論文 参考訳(メタデータ) (2023-07-03T22:11:51Z) - Advancing CTC-CRF Based End-to-End Speech Recognition with Wordpieces
and Conformers [33.725831884078744]
提案したCTC-CRFフレームワークは、ハイブリッドアプローチのデータ効率とエンドツーエンドアプローチの単純さを継承する。
本稿では,最近開発されたワードピースモデリングユニットとコンフォーマーニューラルネットワークをCTC-CRFに適用する手法について検討する。
論文 参考訳(メタデータ) (2021-07-07T04:12:06Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Orthros: Non-autoregressive End-to-end Speech Translation with
Dual-decoder [64.55176104620848]
NARと自己回帰(AR)デコーダの両方を共有音声エンコーダで共同で訓練する新しいNAR E2E-STフレームワークOrthrosを提案する。
後者は、前者から生成される様々な長の候補間のより良い翻訳を選択するために使用され、これは、無視できるオーバーヘッドを持つ大きな長のビームの有効性を劇的に向上させる。
4つのベンチマーク実験により、競合翻訳品質を維持しつつ、推論速度を向上させる手法の有効性が示された。
論文 参考訳(メタデータ) (2020-10-25T06:35:30Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - Learning Source Phrase Representations for Neural Machine Translation [65.94387047871648]
本稿では,対応するトークン表現から句表現を生成可能な注意句表現生成機構を提案する。
実験では,強力なトランスフォーマーベースライン上でのWMT 14の英語・ドイツ語・英語・フランス語タスクにおいて,大幅な改善が得られた。
論文 参考訳(メタデータ) (2020-06-25T13:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。