論文の概要: Conformer-based Hybrid ASR System for Switchboard Dataset
- arxiv url: http://arxiv.org/abs/2111.03442v1
- Date: Fri, 5 Nov 2021 12:03:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 14:45:50.942087
- Title: Conformer-based Hybrid ASR System for Switchboard Dataset
- Title(参考訳): スイッチボードデータセットのためのコンフォーマベースハイブリッドasrシステム
- Authors: Mohammad Zeineldeen, Jingjing Xu, Christoph L\"uscher, Wilfried
Michel, Alexander Gerstenberger, Ralf Schl\"uter, Hermann Ney
- Abstract要約: 本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。
本研究は,単語誤り率の向上と学習速度向上のための異なる訓練側面と手法について検討する。
我々はSwitchboard 300hデータセットで実験を行い、コンバータベースのハイブリッドモデルは競争力のある結果を得る。
- 参考スコア(独自算出の注目度): 99.88988282353206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently proposed conformer architecture has been successfully used for
end-to-end automatic speech recognition (ASR) architectures achieving
state-of-the-art performance on different datasets. To our best knowledge, the
impact of using conformer acoustic model for hybrid ASR is not investigated. In
this paper, we present and evaluate a competitive conformer-based hybrid model
training recipe. We study different training aspects and methods to improve
word-error-rate as well as to increase training speed. We apply time
downsampling methods for efficient training and use transposed convolutions to
upsample the output sequence again. We conduct experiments on Switchboard 300h
dataset and our conformer-based hybrid model achieves competitive results
compared to other architectures. It generalizes very well on Hub5'01 test set
and outperforms the BLSTM-based hybrid model significantly.
- Abstract(参考訳): 最近提案されたコンバータアーキテクチャは、異なるデータセット上で最先端のパフォーマンスを達成するために、エンドツーエンドの自動音声認識(ASR)アーキテクチャに成功している。
我々の知る限り、ハイブリッドASRにおけるコンフォメータ音響モデルの使用が及ぼす影響は調査されていない。
本稿では,競争力のあるコンバータベースハイブリッドモデルトレーニングレシピを提示し,評価する。
単語誤り率の向上と学習速度の向上を目的として,異なる訓練側面と方法を検討した。
効率的なトレーニングにタイムダウンサンプリング手法を適用し,変換された畳み込みを用いて出力シーケンスを再度サンプリングする。
我々はSwitchboard 300hデータセット上で実験を行い、コンバータベースのハイブリッドモデルは、他のアーキテクチャと比較して競合的な結果を得る。
Hub5'01テストセットで非常によく一般化され、BLSTMベースのハイブリッドモデルよりも大幅に優れている。
関連論文リスト
- Multi-Armed Bandit Approach for Optimizing Training on Synthetic Data [7.603659241572307]
動的ユーザビリティ指標と組み合わせた UCB ベースのトレーニング手法を提案する。
提案手法は,合成画像と対応する実・合成データセットからの低レベル・高レベル情報を統合する。
提案手法は, ユーザビリティに基づいて, 合成画像のランク付けに有効な方法であることを示す。
論文 参考訳(メタデータ) (2024-12-06T23:36:36Z) - Hybrid Training Approaches for LLMs: Leveraging Real and Synthetic Data to Enhance Model Performance in Domain-Specific Applications [0.0]
本研究では,超微調整型大規模言語モデル(LLM)のハイブリッドアプローチについて検討する。
転写された実データと高品質な合成セッションを組み合わせたデータセットを利用することで、ドメイン固有の実データの制限を克服することを目的とした。
本研究は,基本基礎モデル,実データで微調整されたモデル,ハイブリッド微調整されたモデルという3つのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-11T18:16:03Z) - Test-time Training for Hyperspectral Image Super-resolution [95.38382633281398]
ハイパースペクトル画像(HSI)超解像(SR)は、まだRGB画像SRの研究に遅れを取っている。
本研究では,この問題に対処するための新しいテストタイムトレーニング手法を提案する。
具体的には、より正確な擬似ラベルとより正確なLR-HR関係を生成する新しい自己学習フレームワークを開発する。
論文 参考訳(メタデータ) (2024-09-13T09:30:19Z) - Heterogeneous Learning Rate Scheduling for Neural Architecture Search on Long-Tailed Datasets [0.0]
本稿では,DARTSのアーキテクチャパラメータに適した適応学習率スケジューリング手法を提案する。
提案手法は,学習エポックに基づくアーキテクチャパラメータの学習率を動的に調整し,よく訓練された表現の破壊を防止する。
論文 参考訳(メタデータ) (2024-06-11T07:32:25Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - A Mixture of Expert Based Deep Neural Network for Improved ASR [4.993304210475779]
MixNetは、音声認識(ASR)における音響モデルのための新しいディープラーニングアーキテクチャである
自然言語では、異なる音響クラスにまたがる分布の重複は避けられないため、クラス間の誤分類につながる。
提案手法は,単語誤り率の13.6%と10.0%を相対的に削減できることを示す。
論文 参考訳(メタデータ) (2021-12-02T07:26:34Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z) - Distributed Training of Deep Neural Network Acoustic Models for
Automatic Speech Recognition [33.032361181388886]
ASRのためのディープニューラルネットワーク音響モデルのための分散トレーニング手法の概要について述べる。
提案手法の収束, 高速化, 認識性能を調べるために, 一般のベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-24T19:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。