論文の概要: Comparison of SVD and factorized TDNN approaches for speech to text
- arxiv url: http://arxiv.org/abs/2110.07027v1
- Date: Wed, 13 Oct 2021 20:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 14:40:06.410571
- Title: Comparison of SVD and factorized TDNN approaches for speech to text
- Title(参考訳): 音声からテキストへのSVDと分解TDNNのアプローチの比較
- Authors: Jeffrey Josanne Michael, Nagendra Kumar Goel, Navneeth K, Jonas
Robertson, Shravan Mishra
- Abstract要約: 本研究は,ハイブリッドHMM-DNNの単語誤り率を低減することに焦点を当てる。
このアーキテクチャは、特に軽量で残響な環境に役立ちます。
- 参考スコア(独自算出の注目度): 1.4291137439893344
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work concentrates on reducing the RTF and word error rate of a hybrid
HMM-DNN. Our baseline system uses an architecture with TDNN and LSTM layers. We
find this architecture particularly useful for lightly reverberated
environments. However, these models tend to demand more computation than is
desirable. In this work, we explore alternate architectures employing singular
value decomposition (SVD) is applied to the TDNN layers to reduce the RTF, as
well as to the affine transforms of every LSTM cell. We compare this approach
with specifying bottleneck layers similar to those introduced by SVD before
training. Additionally, we reduced the search space of the decoding graph to
make it a better fit to operate in real-time applications. We report -61.57%
relative reduction in RTF and almost 1% relative decrease in WER for our
architecture trained on Fisher data along with reverberated versions of this
dataset in order to match one of our target test distributions.
- Abstract(参考訳): 本研究は,ハイブリッドHMM-DNNのRTFと単語誤り率の低減に重点を置いている。
ベースラインシステムは,TDNN層とLSTM層を用いたアーキテクチャを用いている。
このアーキテクチャは、特に軽量で残響な環境に役立ちます。
しかし、これらのモデルは望ましいよりも多くの計算を必要とする傾向にある。
本研究では,特異値分解(SVD)を用いた代替アーキテクチャをTDNN層に適用し,RTFの低減とLSTMセルのアフィン変換について検討する。
本手法は,SVDが学習前に導入したものと類似したボトルネック層を特定することと比較する。
さらに、デコードグラフの検索スペースを減らし、リアルタイムアプリケーションでの操作に適したものにしました。
対象とする試験分布の1つに適合するため,本データセットの残響バージョンと合わせて,RTFの61.57%,WERの約1%の相対的な減少をFisherデータに基づいてトレーニングしたアーキテクチャに対して報告した。
関連論文リスト
- Representation Similarity: A Better Guidance of DNN Layer Sharing for Edge Computing without Training [3.792729116385123]
本稿では,表現類似度Sで導かれる表現をエッジで共有することで,新しいモデルマージ方式を提案する。
Pearson correlation Coefficient |r| > 0.94 than other metrics。
論文 参考訳(メタデータ) (2024-10-15T03:35:54Z) - LD-GAN: Low-Dimensional Generative Adversarial Network for Spectral
Image Generation with Variance Regularization [72.4394510913927]
ディープラーニング法はスペクトル画像(SI)計算タスクの最先端技術である。
GANは、データ分散から学習およびサンプリングすることで、多様な拡張を可能にする。
この種のデータの高次元性は、GANトレーニングの収束を妨げるため、GANベースのSI生成は困難である。
本稿では, オートエンコーダ訓練における低次元表現分散を制御し, GANで生成されたサンプルの多様性を高めるための統計正則化を提案する。
論文 参考訳(メタデータ) (2023-04-29T00:25:02Z) - Deep Learning Weight Pruning with RMT-SVD: Increasing Accuracy and
Reducing Overfitting [0.0]
ディープニューラルネットワーク(DNN)の重み層のスペクトルをランダム行列理論(RMT)の手法を用いて研究・理解することができる。
本研究では,これらのRTT手法を用いて, DNNの重み付け層から, 特異値分解(SVD)を通して, どれ程の特異値を取り除くべきかを判断する。
MNISTで訓練した単純なDNNモデルについて,その結果を示す。
論文 参考訳(メタデータ) (2023-03-15T23:19:45Z) - Partitioned Gradient Matching-based Data Subset Selection for
Compute-Efficient Robust ASR Training [32.68124808736473]
PGM(Partitioned Gradient Matching)は、RNN-Tのトレーニングに使用されるような、大規模なデータセットに適している。
PGMは3倍から6倍のスピードアップを達成できるが,精度は極めて低い。
論文 参考訳(メタデータ) (2022-10-30T17:22:57Z) - Truncated tensor Schatten p-norm based approach for spatiotemporal
traffic data imputation with complicated missing patterns [77.34726150561087]
本研究は, モード駆動繊維による3症例の欠失を含む, 4症例の欠失パターンについて紹介する。
本モデルでは, 目的関数の非性にもかかわらず, 乗算器の交互データ演算法を統合することにより, 最適解を導出する。
論文 参考訳(メタデータ) (2022-05-19T08:37:56Z) - SmoothNets: Optimizing CNN architecture design for differentially
private deep learning [69.10072367807095]
DPSGDは、サンプルごとの勾配の切り抜きとノイズ付けを必要とする。
これにより、非プライベートトレーニングと比較してモデルユーティリティが削減される。
SmoothNetと呼ばれる新しいモデルアーキテクチャを蒸留し,DP-SGDトレーニングの課題に対するロバスト性の向上を特徴とした。
論文 参考訳(メタデータ) (2022-05-09T07:51:54Z) - Tied & Reduced RNN-T Decoder [0.0]
認識性能を低下させることなく,RNN-Tデコーダ(予測ネットワーク+ジョイントネットワーク)の小型化と高速化を図る。
我々の予測ネットワークは入力埋め込みの簡単な重み付けを行い、その埋め込み行列重みを結合ネットワークの出力層と共有する。
このシンプルな設計は、追加の編集ベースの最小ベイズリスク(EMBR)トレーニングと併用することで、ワードエラー率(WER)に影響を与えることなく、RNN-Tデコーダを23Mパラメータから2Mに削減する。
論文 参考訳(メタデータ) (2021-09-15T18:19:16Z) - Why Approximate Matrix Square Root Outperforms Accurate SVD in Global
Covariance Pooling? [59.820507600960745]
本稿では,前方通過のSVDと後方伝播のPad'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。
提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-06T08:03:45Z) - Towards Extremely Compact RNNs for Video Recognition with Fully
Decomposed Hierarchical Tucker Structure [41.41516453160845]
完全に分解された階層型タッカー(FDHT)構造を持つ非常にコンパクトなRNNモデルを提案する。
複数のポピュラービデオ認識データセットを用いた実験結果から,完全分解型階層型タッカー型lstmは極めてコンパクトかつ高効率であることがわかった。
論文 参考訳(メタデータ) (2021-04-12T18:40:44Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。