論文の概要: Lattice-Free Sequence Discriminative Training for Phoneme-Based Neural
Transducers
- arxiv url: http://arxiv.org/abs/2212.04325v3
- Date: Thu, 25 May 2023 15:54:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 23:28:46.738097
- Title: Lattice-Free Sequence Discriminative Training for Phoneme-Based Neural
Transducers
- Title(参考訳): 音素ベースニューラルトランスデューサの格子自由系列判別訓練
- Authors: Zijian Yang, Wei Zhou, Ralf Schl\"uter, Hermann Ney
- Abstract要約: 格子フリーの最大相互情報,格子フリーのセグメントレベル最小ベイズリスク,格子フリーの最小ベイズリスクの3つの学習目標を提案する。
N-bestリストを用いた基準と比較すると、格子フリーな手法はトレーニング中の仮説生成の復号ステップを排除し、より効率的なトレーニングをもたらす。
- 参考スコア(独自算出の注目度): 42.216665678610475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, RNN-Transducers have achieved remarkable results on various
automatic speech recognition tasks. However, lattice-free sequence
discriminative training methods, which obtain superior performance in hybrid
models, are rarely investigated in RNN-Transducers. In this work, we propose
three lattice-free training objectives, namely lattice-free maximum mutual
information, lattice-free segment-level minimum Bayes risk, and lattice-free
minimum Bayes risk, which are used for the final posterior output of the
phoneme-based neural transducer with a limited context dependency. Compared to
criteria using N-best lists, lattice-free methods eliminate the decoding step
for hypotheses generation during training, which leads to more efficient
training. Experimental results show that lattice-free methods gain up to 6.5%
relative improvement in word error rate compared to a sequence-level
cross-entropy trained model. Compared to the N-best-list based minimum Bayes
risk objectives, lattice-free methods gain 40% - 70% relative training time
speedup with a small degradation in performance.
- Abstract(参考訳): 近年,RNN-Transducersは様々な自動音声認識タスクにおいて顕著な成果を上げている。
しかし,RNNトランスデューサでは,ハイブリッドモデルにおいて優れた性能を示す格子フリーシーケンス識別訓練法はほとんど研究されていない。
本研究では,音素ベースニューラルトランスデューサの最終後方出力に使用する格子フリーな最大相互情報,格子フリーセグメントレベル最小ベイズリスク,格子フリー最小ベイズリスクという3つの格子フリートレーニング目標を提案する。
N-bestリストを用いた基準と比較すると、格子フリーな手法はトレーニング中の仮説生成の復号ステップを排除し、より効率的なトレーニングをもたらす。
実験の結果, 格子自由法は, シーケンスレベルのクロスエントロピー訓練モデルと比較して, 単語誤り率を最大6.5%向上させることがわかった。
N-best-listベースの最小ベイズリスク目標と比較すると、格子フリーな手法は性能の低下とともに40%から70%の相対的なトレーニングタイムスピードアップが得られる。
関連論文リスト
- Grad-Instructor: Universal Backpropagation with Explainable Evaluation Neural Networks for Meta-learning and AutoML [0.0]
評価ニューラルネットワーク(ENN)は、ターゲットネットワークの性能を予測するために、深層強化学習を通じて訓練される。
ENNは、バックプロパゲーション中に追加評価機能として機能する。
論文 参考訳(メタデータ) (2024-06-15T08:37:51Z) - Sparse Spectral Training and Inference on Euclidean and Hyperbolic Neural Networks [9.96381061452642]
SST(Sparse Spectral Training)は、全ての特異値を更新し、ネットワーク重みの特異ベクトルを選択的に更新する高度な訓練手法である。
SSTは、特異値の重み付けによる多項サンプリング法により決定される特異ベクトルに対する目標更新戦略を用いて、トレーニングプロセスを洗練する。
OPT-125Mでは、組込み寸法の8.3%に等しく、SSTはパープレキシティギャップを67.6%減らし、一般的なローランク法で性能損失を著しく低減した。
論文 参考訳(メタデータ) (2024-05-24T11:59:41Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Learning with Noisy Labels Using Collaborative Sample Selection and
Contrastive Semi-Supervised Learning [76.00798972439004]
Collaborative Sample Selection (CSS)は、特定されたクリーンセットからノイズの多いサンプルを削除する。
半教師付き学習において、対照的な損失を伴う協調学習機構を導入する。
論文 参考訳(メタデータ) (2023-10-24T05:37:20Z) - Self-Supervised Pretraining Improves Performance and Inference
Efficiency in Multiple Lung Ultrasound Interpretation Tasks [65.23740556896654]
肺超音波検査における複数分類課題に適用可能なニューラルネットワーク特徴抽出器を,自己指導型プレトレーニングで作成できるかどうかを検討した。
3つの肺超音波のタスクを微調整すると、事前訓練されたモデルにより、各テストセットの受信操作曲線(AUC)における平均クロスタスク面積は、それぞれ0.032と0.061に改善された。
論文 参考訳(メタデータ) (2023-09-05T21:36:42Z) - Active Learning Guided Fine-Tuning for enhancing Self-Supervised Based
Multi-Label Classification of Remote Sensing Images [0.0]
自己教師付き事前学習と、ランダムに選択された小さなトレーニングセットの微調整を組み合わせることで、アノテーションの取り組みを最小限に抑えるための一般的なアプローチとなっている。
能動学習による自己指導型プレトレーニング(AL)の併用効果について検討する。
実験により,ランダムに構築した小型トレーニングセットを用いた微調整と比較して,AL誘導微調整の有効性が示された。
論文 参考訳(メタデータ) (2023-06-12T07:26:21Z) - A Distributed Optimisation Framework Combining Natural Gradient with
Hessian-Free for Discriminative Sequence Training [16.83036203524611]
本稿では、ニューラルネットワークトレーニングのための自然勾配およびヘッセンフリー(NGHF)最適化フレームワークを提案する。
これは、自然勾配(ng)法とヘッセンフリー(hf)や他の二次法からの局所曲率情報を組み合わせた線形共役勾配(cg)アルゴリズムに依存している。
さまざまな音響モデルタイプのマルチジャンル放送データセットで実験が報告されています。
論文 参考訳(メタデータ) (2021-03-12T22:18:34Z) - Discriminatively-Tuned Generative Classifiers for Robust Natural
Language Inference [59.62779187457773]
自然言語推論のための生成型分類器(NLI)を提案する。
差別モデルやBERTのような大規模事前学習言語表現モデルを含む5つのベースラインと比較する。
実験の結果、GenNLIはいくつかの挑戦的なNLI実験環境において差別的ベースラインと事前訓練ベースラインの両方に優れていた。
論文 参考訳(メタデータ) (2020-10-08T04:44:00Z) - Efficient minimum word error rate training of RNN-Transducer for
end-to-end speech recognition [21.65651608697333]
RNN-Transducer (RNN-T) のための新しい,効率的な最小単語誤り率 (MWER) トレーニング手法を提案する。
提案手法では,N-bestリストにおける各仮説に対する全てのアライメントの総和スコアを再計算する。
前向きアルゴリズムを用いて仮説確率スコアと後向き勾配を効率的に算出する。
論文 参考訳(メタデータ) (2020-07-27T18:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。