論文の概要: Equivalence of Segmental and Neural Transducer Modeling: A Proof of
Concept
- arxiv url: http://arxiv.org/abs/2104.06104v1
- Date: Tue, 13 Apr 2021 11:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:24:47.090821
- Title: Equivalence of Segmental and Neural Transducer Modeling: A Proof of
Concept
- Title(参考訳): セグメント・ニューラル・トランスデューサ・モデリングの等価性:概念実証
- Authors: Wei Zhou, Albert Zeyer, Andr\'e Merboldt, Ralf Schl\"uter, Hermann Ney
- Abstract要約: RNN-Transducerモデルとセグメントモデル(直接HMM)の広く使われているクラスが等価であることを証明する。
空白確率はセグメント長確率に変換され,その逆も示された。
- 参考スコア(独自算出の注目度): 56.46135010588918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of direct models in automatic speech recognition (ASR), the
formerly prevalent frame-wise acoustic modeling based on hidden Markov models
(HMM) diversified into a number of modeling architectures like encoder-decoder
attention models, transducer models and segmental models (direct HMM). While
transducer models stay with a frame-level model definition, segmental models
are defined on the level of label segments, directly. While
(soft-)attention-based models avoid explicit alignment, transducer and
segmental approach internally do model alignment, either by segment hypotheses
or, more implicitly, by emitting so-called blank symbols. In this work, we
prove that the widely used class of RNN-Transducer models and segmental models
(direct HMM) are equivalent and therefore show equal modeling power. It is
shown that blank probabilities translate into segment length probabilities and
vice versa. In addition, we provide initial experiments investigating decoding
and beam-pruning, comparing time-synchronous and label-/segment-synchronous
search strategies and their properties using the same underlying model.
- Abstract(参考訳): 音声認識における直接モデル(ASR)の出現に伴い、隠れマルコフモデル(HMM)に基づくフレームワイド音響モデリングは、エンコーダ・デコーダアテンションモデル、トランスデューサモデル、セグメントモデル(ダイレクトHMM)といった多くのモデリングアーキテクチャに多様化した。
トランスデューサモデルはフレームレベルのモデル定義のままであるが、セグメントモデルはラベルセグメントのレベルで直接定義される。
ソフトアテンションベースのモデルは明示的なアライメントを避けるが、トランスデューサとセグメンショナルアプローチは、セグメント仮説またはより暗黙的に、いわゆるブランクシンボルを出力することによってモデルアライメントを行う。
本稿では,広く用いられているrnnトランスデューサモデルとセグメントモデル(direct hmm)のクラスが等価であることを示す。
空白確率はセグメント長確率に変換され,その逆も示された。
さらに, 時間同期法とラベル/セグメント同期法を同一モデルを用いて比較し, 復号とビームプルーニングについての初期実験を行った。
関連論文リスト
- STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Detecting Signs of Model Change with Continuous Model Selection Based on
Descriptive Dimensionality [21.86268650362205]
データストリームの背後にあるモデルの変更を検出するという問題に対処する。
データストリームにおけるDdimの上昇を追跡することによって,モデル変化の兆候を検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-23T16:10:06Z) - Context-specific kernel-based hidden Markov model for time series
analysis [9.007829035130886]
カーネル密度推定に基づく隠れマルコフモデルを提案する。
コンテキスト固有のベイズネットワークを使ってカーネルの依存関係をキャプチャできる。
提案モデルによる可能性と分類精度の利点を定量化し分析する。
論文 参考訳(メタデータ) (2023-01-24T09:10:38Z) - DiffusER: Discrete Diffusion via Edit-based Reconstruction [88.62707047517914]
DiffusERは、拡散モデルに基づくテキストの編集ベースの生成モデルである。
機械翻訳、要約、スタイル転送にまたがるいくつかのタスクにおいて、自動回帰モデルと競合する可能性がある。
また、標準的な自己回帰モデルに適さないような、他の種類の世代も実行することができる。
論文 参考訳(メタデータ) (2022-10-30T16:55:23Z) - Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。
言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文 参考訳(メタデータ) (2022-01-08T00:47:50Z) - Scaling Hidden Markov Language Models [118.55908381553056]
この研究は、HMMを言語モデリングデータセットに拡張するという課題を再考する。
本研究では,HMMを大規模状態空間に拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-11-09T18:51:55Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Deep Neural Dynamic Bayesian Networks applied to EEG sleep spindles
modeling [0.0]
本稿では,視覚的スコアリングにおいて専門家が積極的に実施する制約を組み込んだ単一チャネル脳波生成モデルを提案する。
我々は、一般化期待最大化の特別な場合として、正確に、抽出可能な推論のためのアルゴリズムを導出する。
我々は、このモデルを3つの公開データセット上で検証し、より複雑なモデルが最先端の検出器を越えられるように支援する。
論文 参考訳(メタデータ) (2020-10-16T21:48:29Z) - Semi-supervised Neural Chord Estimation Based on a Variational
Autoencoder with Latent Chord Labels and Features [18.498244371257304]
本稿では,自動コード推定のための統計的手法について述べる。
コードアノテーションの入手の有無にかかわらず、音楽信号の有効利用が可能となる。
論文 参考訳(メタデータ) (2020-05-14T15:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。