論文の概要: A Treatise On FST Lattice Based MMI Training
- arxiv url: http://arxiv.org/abs/2210.08918v1
- Date: Mon, 17 Oct 2022 10:17:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 17:22:52.890732
- Title: A Treatise On FST Lattice Based MMI Training
- Title(参考訳): FST格子を用いたMMIトレーニングに関する一考察
- Authors: Adnan Haider, Tim Ng, Zhen Huang, Xingyu Na and Antti Veikko Rosti
- Abstract要約: 本稿では、標準有限状態トランスデューサ(FST)格子に基づくMMIトレーニングフレームワークの設計実装によって引き起こされる暗黙的なモデリング決定を分離し、特定し、前進させることを目的とする。
アシスタントタスクとディクテーションタスクでは、標準的なFST格子に基づくアプローチよりも2.3-4.6%の相対的なWER削減(WERR)を実現している。
- 参考スコア(独自算出の注目度): 5.0137726642261375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maximum mutual information (MMI) has become one of the two de facto methods
for sequence-level training of speech recognition acoustic models. This paper
aims to isolate, identify and bring forward the implicit modelling decisions
induced by the design implementation of standard finite state transducer (FST)
lattice based MMI training framework. The paper particularly investigates the
necessity to maintain a preselected numerator alignment and raises the
importance of determinizing FST denominator lattices on the fly. The efficacy
of employing on the fly FST lattice determinization is mathematically shown to
guarantee discrimination at the hypothesis level and is empirically shown
through training deep CNN models on a 18K hours Mandarin dataset and on a 2.8K
hours English dataset. On assistant and dictation tasks, the approach achieves
between 2.3-4.6% relative WER reduction (WERR) over the standard FST lattice
based approach.
- Abstract(参考訳): 最大相互情報(MMI)は、音声認識音響モデルのシーケンスレベルの訓練のための2つのデファクト手法の1つである。
本稿では、標準有限状態トランスデューサ(FST)格子に基づくMMIトレーニングフレームワークの設計実装によって引き起こされる暗黙的なモデリング決定を分離し、特定し、前進させることを目的とする。
本論文は, 予め選択した数値計算器のアライメントを維持する必要性を特に検討し, フライでのFST分母格子の決定の重要性を高める。
ハエのFST格子決定式を用いた効果は、仮説レベルでの識別を保証するために数学的に示され、18K時間マンダリンデータセットと2.8K時間英語データセットの深部CNNモデルのトレーニングを通じて実証的に示される。
アシスタントタスクとディクテーションタスクでは、標準的なFST格子に基づくアプローチよりも2.3-4.6%の相対的なWER削減(WERR)を実現している。
関連論文リスト
- Adaptive Distribution Masked Autoencoders for Continual Test-Time
Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Estimating Fr\'echet bounds for validating programmatic weak supervision [50.13475056199486]
我々は、ある変数が連続的に評価される(おそらく高次元の)分布クラス上のFr'echeの境界を推定する手法を開発する。
プログラム弱監督(PWS)を訓練した機械学習(ML)モデルの性能を評価することで,アルゴリズムの有用性を実証する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - FaultSeg Swin-UNETR: Transformer-Based Self-Supervised Pretraining Model
for Fault Recognition [13.339333273943842]
本稿では,自己教師付き事前学習による地震断層認識の高度化手法を提案する。
我々は,Swin Transformerモデルをコアネットワークとして採用し,SimMIMプレトレーニングタスクを用いて,地震データにおける不連続性に関連する特徴を抽出した。
実験の結果,提案手法は,OISおよびODS測定値から,Thebeデータセット上での最先端性能を実現することができた。
論文 参考訳(メタデータ) (2023-10-27T08:38:59Z) - Open-Domain Text Evaluation via Meta Distribution Modeling [59.38686738625588]
オープンドメイン生成モデルを評価するための新しいアプローチ - Meta-Distribution Methods (MDM) を提案する。
筆者らは,1)メタディストリビューション法を利用したオープンドメインテキスト生成評価のためのMDMについて検討する。1)メタディストリビューション法を用いて,識別器ベースのメトリクスをトレーニングするためのドメイン内負のサンプルを生成するemphDiscriminative MDM,2)2つの言語モデル間の分散の相違を直接利用して評価を行うemphDiscriminative MDMについて検討する。
論文 参考訳(メタデータ) (2023-06-20T20:37:54Z) - DiffSTG: Probabilistic Spatio-Temporal Graph Forecasting with Denoising
Diffusion Models [53.67562579184457]
本稿では,不確実性や複雑な依存関係のモデル化が困難であることから,確率的STG予測に焦点をあてる。
本稿では,一般的な拡散モデルをSTGに一般化する最初の試みとして,DiffSTGと呼ばれる新しい非自己回帰フレームワークを提案する。
提案手法は,本質的時間学習能力STNNと拡散モデルの不確実性測定を組み合わせたものである。
論文 参考訳(メタデータ) (2023-01-31T13:42:36Z) - From Cloze to Comprehension: Retrofitting Pre-trained Masked Language
Model to Pre-trained Machine Reader [130.45769668885487]
Pre-trained Machine Reader (PMR) は、ラベル付きデータを取得することなく、MLMを事前学習機械読解(MRC)モデルに適合させる新しい手法である。
提案したPMRを構築するために,多量の汎用および高品質なMRCスタイルのトレーニングデータを構築した。
PMRは、MRCの定式化における様々な抽出および分類タスクに対処するための統一モデルとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-12-09T10:21:56Z) - Test-Time Mixup Augmentation for Data and Class-Specific Uncertainty
Estimation in Deep Learning Image Classification [22.02829139522153]
テスト時間混合強化(TTMA)を用いたディープラーニング画像分類における不確実性を推定する手法を提案する。
既存の天王星の不確実性における正しい予測と誤予測を区別する能力を改善するため、TTMAデータ不確実性(TTMA-DU)を導入する。
TTMA-DUに加えて,TTMAクラス固有の不確実性(TTMA-CSU)を提案する。
論文 参考訳(メタデータ) (2022-12-01T01:44:56Z) - Feature Correlation-guided Knowledge Transfer for Federated
Self-supervised Learning [19.505644178449046]
特徴相関に基づくアグリゲーション(FedFoA)を用いたフェデレーション型自己教師型学習法を提案する。
私たちの洞察は、機能相関を利用して、特徴マッピングを整列し、ローカルトレーニングプロセス中にクライアント間でローカルモデルの更新を校正することにあります。
我々はFedFoAがモデルに依存しないトレーニングフレームワークであることを証明する。
論文 参考訳(メタデータ) (2022-11-14T13:59:50Z) - Bayesian Evidential Learning for Few-Shot Classification [20.876386546503834]
Few-Shot 分類は、非常に限定されたラベル付きサンプルをベースクラスから新しいクラスに一般化することを目的としている。
最先端のソリューションは、サンプル間の距離を計算するための良い計量と表現空間を見つけることを含む。
有望な精度性能にもかかわらず、計量ベースのFSC手法の不確実性を効果的にモデル化する方法は依然として課題である。
論文 参考訳(メタデータ) (2022-07-19T03:58:00Z) - Self-critical Sequence Training for Automatic Speech Recognition [25.06635361326706]
本稿では,自己臨界シーケンストレーニング(SCST)と呼ばれる最適化手法を提案する。
強化学習(RL)に基づく手法として、SCSTはトレーニング基準とWERを関連付けるために、カスタマイズされた報酬関数を利用する。
その結果,提案したSCSTは,WERの基準値に対して,それぞれ8.7%,7.8%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2022-04-13T09:13:32Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。