論文の概要: A Treatise On FST Lattice Based MMI Training
- arxiv url: http://arxiv.org/abs/2210.08918v1
- Date: Mon, 17 Oct 2022 10:17:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 17:22:52.890732
- Title: A Treatise On FST Lattice Based MMI Training
- Title(参考訳): FST格子を用いたMMIトレーニングに関する一考察
- Authors: Adnan Haider, Tim Ng, Zhen Huang, Xingyu Na and Antti Veikko Rosti
- Abstract要約: 本稿では、標準有限状態トランスデューサ(FST)格子に基づくMMIトレーニングフレームワークの設計実装によって引き起こされる暗黙的なモデリング決定を分離し、特定し、前進させることを目的とする。
アシスタントタスクとディクテーションタスクでは、標準的なFST格子に基づくアプローチよりも2.3-4.6%の相対的なWER削減(WERR)を実現している。
- 参考スコア(独自算出の注目度): 5.0137726642261375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maximum mutual information (MMI) has become one of the two de facto methods
for sequence-level training of speech recognition acoustic models. This paper
aims to isolate, identify and bring forward the implicit modelling decisions
induced by the design implementation of standard finite state transducer (FST)
lattice based MMI training framework. The paper particularly investigates the
necessity to maintain a preselected numerator alignment and raises the
importance of determinizing FST denominator lattices on the fly. The efficacy
of employing on the fly FST lattice determinization is mathematically shown to
guarantee discrimination at the hypothesis level and is empirically shown
through training deep CNN models on a 18K hours Mandarin dataset and on a 2.8K
hours English dataset. On assistant and dictation tasks, the approach achieves
between 2.3-4.6% relative WER reduction (WERR) over the standard FST lattice
based approach.
- Abstract(参考訳): 最大相互情報(MMI)は、音声認識音響モデルのシーケンスレベルの訓練のための2つのデファクト手法の1つである。
本稿では、標準有限状態トランスデューサ(FST)格子に基づくMMIトレーニングフレームワークの設計実装によって引き起こされる暗黙的なモデリング決定を分離し、特定し、前進させることを目的とする。
本論文は, 予め選択した数値計算器のアライメントを維持する必要性を特に検討し, フライでのFST分母格子の決定の重要性を高める。
ハエのFST格子決定式を用いた効果は、仮説レベルでの識別を保証するために数学的に示され、18K時間マンダリンデータセットと2.8K時間英語データセットの深部CNNモデルのトレーニングを通じて実証的に示される。
アシスタントタスクとディクテーションタスクでは、標準的なFST格子に基づくアプローチよりも2.3-4.6%の相対的なWER削減(WERR)を実現している。
関連論文リスト
- Recursive Learning of Asymptotic Variational Objectives [49.69399307452126]
一般状態空間モデル(英: General State-space Model, SSM)は、統計機械学習において広く用いられ、時系列データに対して最も古典的な生成モデルの一つである。
オンラインシーケンシャルIWAE(OSIWAE)は、潜在状態の推測のためのモデルパラメータとマルコフ認識モデルの両方のオンライン学習を可能にする。
このアプローチは、最近提案されたオンライン変分SMC法よりも理論的によく確立されている。
論文 参考訳(メタデータ) (2024-11-04T16:12:37Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - ClassiFIM: An Unsupervised Method To Detect Phase Transitions [0.13194391758295113]
ClassiFIMは、FIM推定タスクを解決するために設計された新しい機械学習手法である。
古典的および量子的位相遷移を記述するデータセットを含む,複数のデータセットにClassiFIMを実装した。
また,本手法の汎用性を強調するため,MNIST-CNNデータセットの提案と生成を行う。
論文 参考訳(メタデータ) (2024-08-06T17:58:29Z) - R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - MSRS: Training Multimodal Speech Recognition Models from Scratch with Sparse Mask Optimization [49.00754561435518]
MSRSは、RS3ベンチマークで21.1%と0.9%のWERでVSRとAVSRの競争結果を達成し、トレーニング時間を少なくとも2倍に短縮した。
我々は、他のスパースアプローチを探索し、MSRSだけが、消失する勾配によって影響を受ける重量を暗黙的に隠蔽することで、スクラッチからトレーニングできることを示す。
論文 参考訳(メタデータ) (2024-06-25T15:00:43Z) - DiffSTG: Probabilistic Spatio-Temporal Graph Forecasting with Denoising
Diffusion Models [53.67562579184457]
本稿では,不確実性や複雑な依存関係のモデル化が困難であることから,確率的STG予測に焦点をあてる。
本稿では,一般的な拡散モデルをSTGに一般化する最初の試みとして,DiffSTGと呼ばれる新しい非自己回帰フレームワークを提案する。
提案手法は,本質的時間学習能力STNNと拡散モデルの不確実性測定を組み合わせたものである。
論文 参考訳(メタデータ) (2023-01-31T13:42:36Z) - Test-Time Mixup Augmentation for Data and Class-Specific Uncertainty
Estimation in Deep Learning Image Classification [22.02829139522153]
テスト時間混合強化(TTMA)を用いたディープラーニング画像分類における不確実性を推定する手法を提案する。
既存の天王星の不確実性における正しい予測と誤予測を区別する能力を改善するため、TTMAデータ不確実性(TTMA-DU)を導入する。
TTMA-DUに加えて,TTMAクラス固有の不確実性(TTMA-CSU)を提案する。
論文 参考訳(メタデータ) (2022-12-01T01:44:56Z) - Feature Correlation-guided Knowledge Transfer for Federated
Self-supervised Learning [19.505644178449046]
特徴相関に基づくアグリゲーション(FedFoA)を用いたフェデレーション型自己教師型学習法を提案する。
私たちの洞察は、機能相関を利用して、特徴マッピングを整列し、ローカルトレーニングプロセス中にクライアント間でローカルモデルの更新を校正することにあります。
我々はFedFoAがモデルに依存しないトレーニングフレームワークであることを証明する。
論文 参考訳(メタデータ) (2022-11-14T13:59:50Z) - Bayesian Evidential Learning for Few-Shot Classification [22.46281648187903]
Few-Shot 分類は、非常に限定されたラベル付きサンプルをベースクラスから新しいクラスに一般化することを目的としている。
最先端のソリューションは、サンプル間の距離を計算するための良い計量と表現空間を見つけることを含む。
有望な精度性能にもかかわらず、計量ベースのFSC手法の不確実性を効果的にモデル化する方法は依然として課題である。
論文 参考訳(メタデータ) (2022-07-19T03:58:00Z) - Self-critical Sequence Training for Automatic Speech Recognition [25.06635361326706]
本稿では,自己臨界シーケンストレーニング(SCST)と呼ばれる最適化手法を提案する。
強化学習(RL)に基づく手法として、SCSTはトレーニング基準とWERを関連付けるために、カスタマイズされた報酬関数を利用する。
その結果,提案したSCSTは,WERの基準値に対して,それぞれ8.7%,7.8%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2022-04-13T09:13:32Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。