論文の概要: Conformer-based Hybrid ASR System for Switchboard Dataset
- arxiv url: http://arxiv.org/abs/2111.03442v1
- Date: Fri, 5 Nov 2021 12:03:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 14:45:50.942087
- Title: Conformer-based Hybrid ASR System for Switchboard Dataset
- Title(参考訳): スイッチボードデータセットのためのコンフォーマベースハイブリッドasrシステム
- Authors: Mohammad Zeineldeen, Jingjing Xu, Christoph L\"uscher, Wilfried
Michel, Alexander Gerstenberger, Ralf Schl\"uter, Hermann Ney
- Abstract要約: 本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。
本研究は,単語誤り率の向上と学習速度向上のための異なる訓練側面と手法について検討する。
我々はSwitchboard 300hデータセットで実験を行い、コンバータベースのハイブリッドモデルは競争力のある結果を得る。
- 参考スコア(独自算出の注目度): 99.88988282353206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently proposed conformer architecture has been successfully used for
end-to-end automatic speech recognition (ASR) architectures achieving
state-of-the-art performance on different datasets. To our best knowledge, the
impact of using conformer acoustic model for hybrid ASR is not investigated. In
this paper, we present and evaluate a competitive conformer-based hybrid model
training recipe. We study different training aspects and methods to improve
word-error-rate as well as to increase training speed. We apply time
downsampling methods for efficient training and use transposed convolutions to
upsample the output sequence again. We conduct experiments on Switchboard 300h
dataset and our conformer-based hybrid model achieves competitive results
compared to other architectures. It generalizes very well on Hub5'01 test set
and outperforms the BLSTM-based hybrid model significantly.
- Abstract(参考訳): 最近提案されたコンバータアーキテクチャは、異なるデータセット上で最先端のパフォーマンスを達成するために、エンドツーエンドの自動音声認識(ASR)アーキテクチャに成功している。
我々の知る限り、ハイブリッドASRにおけるコンフォメータ音響モデルの使用が及ぼす影響は調査されていない。
本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。
単語誤り率の向上と学習速度の向上を目的として,異なる訓練側面と方法を検討した。
効率的なトレーニングにタイムダウンサンプリング手法を適用し,変換された畳み込みを用いて出力シーケンスを再度サンプリングする。
我々はSwitchboard 300hデータセット上で実験を行い、コンバータベースのハイブリッドモデルは、他のアーキテクチャと比較して競合的な結果を得る。
Hub5'01テストセットで非常によく一般化され、BLSTMベースのハイブリッドモデルよりも大幅に優れている。
関連論文リスト
- Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Bridging Sensor Gaps via Single-Direction Tuning for Hyperspectral Image
Classification [21.623010413720458]
本稿では,限られたサンプルを持つ新しいHSIデータセットの性能向上のためのブリッジとして機能する単一方向チューニング(SDT)戦略を提案する。
提案したSDTは,並列アーキテクチャ,非同期コールドホット勾配更新戦略,一方向インタラクションを利用する。
異種、あるいはクロスモーダルなデータセットのトレーニングから派生した、強力な表現学習能力をフル活用することを目的としている。
論文 参考訳(メタデータ) (2023-09-22T13:39:24Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - A Mixture of Expert Based Deep Neural Network for Improved ASR [4.993304210475779]
MixNetは、音声認識(ASR)における音響モデルのための新しいディープラーニングアーキテクチャである
自然言語では、異なる音響クラスにまたがる分布の重複は避けられないため、クラス間の誤分類につながる。
提案手法は,単語誤り率の13.6%と10.0%を相対的に削減できることを示す。
論文 参考訳(メタデータ) (2021-12-02T07:26:34Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - A Hybrid Residual Dilated LSTM end Exponential Smoothing Model for
Mid-Term Electric Load Forecasting [1.1602089225841632]
このモデルは指数的平滑化(ETS)、高度なLong Short-Term Memory(LSTM)とアンサンブルを組み合わせたものである。
欧州35か国における月次電力需要時系列のシミュレーション研究により,提案モデルの高性能性が確認された。
論文 参考訳(メタデータ) (2020-03-29T10:53:50Z) - Distributed Training of Deep Neural Network Acoustic Models for
Automatic Speech Recognition [33.032361181388886]
ASRのためのディープニューラルネットワーク音響モデルのための分散トレーニング手法の概要について述べる。
提案手法の収束, 高速化, 認識性能を調べるために, 一般のベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-24T19:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。