Fugu-MT 論文翻訳(概要): Revisiting the Entropy Semiring for Neural Speech Recognition

論文の概要: Revisiting the Entropy Semiring for Neural Speech Recognition

arxiv url: http://arxiv.org/abs/2312.10087v2
Date: Tue, 19 Dec 2023 01:42:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 21:39:05.446319
Title: Revisiting the Entropy Semiring for Neural Speech Recognition
Title（参考訳）: ニューラル音声認識におけるエントロピーセミナーの再検討
Authors: Oscar Chang, Dongseong Hwang, Olivier Siohan
Abstract要約: 正規化や蒸留によるモデル監視にアライメントエントロピーをどのように利用できるかを示す。また,セミリングフレームワークにおけるCTCとRNN-Tのオープンソース実装にも貢献する。
参考スコア（独自算出の注目度）: 17.408741279118857
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In streaming settings, speech recognition models have to map sub-sequences of speech to text before the full audio stream becomes available. However, since alignment information between speech and text is rarely available during training, models need to learn it in a completely self-supervised way. In practice, the exponential number of possible alignments makes this extremely challenging, with models often learning peaky or sub-optimal alignments. Prima facie, the exponential nature of the alignment space makes it difficult to even quantify the uncertainty of a model's alignment distribution. Fortunately, it has been known for decades that the entropy of a probabilistic finite state transducer can be computed in time linear to the size of the transducer via a dynamic programming reduction based on semirings. In this work, we revisit the entropy semiring for neural speech recognition models, and show how alignment entropy can be used to supervise models through regularization or distillation. We also contribute an open-source implementation of CTC and RNN-T in the semiring framework that includes numerically stable and highly parallel variants of the entropy semiring. Empirically, we observe that the addition of alignment distillation improves the accuracy and latency of an already well-optimized teacher-student distillation model, achieving state-of-the-art performance on the Librispeech dataset in the streaming scenario.
Abstract（参考訳）: ストリーミング設定では、音声認識モデルは全音声ストリームが利用可能になる前に、音声のサブシーケンスをテキストにマッピングする必要がある。しかし、音声とテキストのアライメント情報はトレーニング中にはほとんど利用できないため、モデルが完全に自己教師ありの方法で学習する必要がある。実際には、考えられるアライメントの指数的な数は非常に難しく、モデルはしばしばピークあるいは準最適アライメントを学習する。プリマ・ファシエ(prima facie)、アライメント空間の指数的性質は、モデルのアライメント分布の不確かさを定量化することさえ困難である。幸運なことに、確率的有限状態トランスデューサのエントロピーは半環に基づく動的プログラミング還元により、トランスデューサのサイズに線形に時間で計算できることは数十年前から知られている。本研究では,ニューラル音声認識モデルのエントロピーセミリングを再検討し,アライメントエントロピーが正規化や蒸留によってモデルを監視できることを示す。また,ctc と rnn-t のオープンソース実装を,エントロピーセミリングの数値的安定かつ高並列な変種を含むセミリングフレームワークに寄贈した。実験により,アライメント蒸留の追加により,すでに最適化された教師学生蒸留モデルの精度とレイテンシが向上し,ストリーミングシナリオにおけるLibrispeechデータセットの最先端性能が達成されることがわかった。

関連論文リスト

Unbiased Sliced Wasserstein Kernels for High-Quality Audio Captioning [55.41070713054046]
非バイアススライスされたWasserstein RBFカーネルを導入し、時間相似性スコアを開発する。また、未バイアススライスされたWassersteinカーネルに基づくオーディオキャプションフレームワークも導入する。
論文参考訳（メタデータ） (2025-02-08T03:47:06Z)
Inference-Time Alignment in Diffusion Models with Reward-Guided Generation: Tutorial and Review [59.856222854472605]
このチュートリアルは、拡散モデルにおける下流の報酬関数を最適化するための推論時ガイダンスとアライメント方法に関する詳細なガイドを提供する。生物学のような分野における実践的な応用は、しばしば特定の指標を最大化するサンプル生成を必要とする。本稿では,(1)推論時と組み合わせた微調整手法,(2)モンテカルロ木探索などの探索アルゴリズムに基づく推論時アルゴリズム,(3)言語モデルと拡散モデルにおける推論時アルゴリズムの接続について論じる。
論文参考訳（メタデータ） (2025-01-16T17:37:35Z)
Enhancing Foundation Models for Time Series Forecasting via Wavelet-based Tokenization [74.3339999119713]
我々はウェーブレットベースのトークンーザを開発し、時間局所化周波数の空間でモデルが複雑な表現を直接学習できるようにする。提案手法は,まず入力時系列をスケール・分解し,次に閾値を設定し,ウェーブレット係数を定量化し,最後に予測水平方向の係数を予測する自己回帰モデルを事前学習する。
論文参考訳（メタデータ） (2024-12-06T18:22:59Z)
Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文参考訳（メタデータ） (2024-01-03T02:03:36Z)
Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文参考訳（メタデータ） (2023-12-19T21:45:38Z)
Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文参考訳（メタデータ） (2023-06-16T17:59:51Z)
Scalable Learning of Latent Language Structure With Logical Offline Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文参考訳（メタデータ） (2023-05-31T16:47:20Z)
Alignment Entropy Regularization [13.904347165738491]
エントロピーを用いてモデルの不確実性を測定する。許容アライメントの小さな部分集合にのみ確率質量を分配するようモデルに促すエントロピー正則化の効果を評価する。
論文参考訳（メタデータ） (2022-12-22T18:51:02Z)
Period VITS: Variational Inference with Explicit Pitch Modeling for End-to-end Emotional Speech Synthesis [19.422230767803246]
我々は,明示的な周期性生成を組み込んだ新しいエンドツーエンドテキスト音声合成モデルである Period VITS を提案する。提案手法では,入力テキストからピッチや発声フラグなどの韻律的特徴を予測するフレームピッチ予測器を提案する。これらの特徴から、提案した周期性発生器は、波形デコーダがピッチを正確に再現できるサンプルレベルの正弦波源を生成する。
論文参考訳（メタデータ） (2022-10-28T07:52:30Z)
Robust and Provably Monotonic Networks [0.0]
深層学習モデルのリプシッツ定数を制約する新しい手法を提案する。 LHCbのリアルタイムデータ処理システムにおいて, 強靭で解釈可能な判別器を学習するために, アルゴリズムがどのように使われたかを示す。
論文参考訳（メタデータ） (2021-11-30T19:01:32Z)
Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech [4.348588963853261]
メルスペクトルを生成するスコアベースデコーダを用いた新しい音声合成モデルGrad-TTSを提案する。フレキシブル微分方程式の枠組みは、従来の拡散確率モデルを一般化するのに役立ちます。主観評価の結果,Grad-TTS は平均オピニオンスコアにおいて最先端の音声合成手法と競合していることがわかった。
論文参考訳（メタデータ） (2021-05-13T14:47:44Z)
Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文参考訳（メタデータ） (2020-08-07T11:02:07Z)
Real-Time Regression with Dividing Local Gaussian Processes [62.01822866877782]
局所ガウス過程は、ガウス過程の回帰に基づく新しい、計算効率の良いモデリング手法である。入力空間の反復的データ駆動分割により、実際にはトレーニングポイントの総数において、サブ線形計算複雑性が達成される。実世界のデータセットに対する数値的な評価は、予測と更新の速度だけでなく、精度の点で他の最先端手法よりも有利であることを示している。
論文参考訳（メタデータ） (2020-06-16T18:43:31Z)
Improve Variational Autoencoder for Text Generationwith Discrete Latent Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。 VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文参考訳（メタデータ） (2020-04-22T14:41:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。