論文の概要: VQ-T: RNN Transducers using Vector-Quantized Prediction Network States
- arxiv url: http://arxiv.org/abs/2208.01818v1
- Date: Wed, 3 Aug 2022 02:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 14:05:15.539497
- Title: VQ-T: RNN Transducers using Vector-Quantized Prediction Network States
- Title(参考訳): VQ-T:ベクトル量子予測ネットワーク状態を用いたRNNトランスデューサ
- Authors: Jiatong Shi, George Saon, David Haws, Shinji Watanabe, Brian Kingsbury
- Abstract要約: 本稿では,RNNトランスデューサの予測ネットワークにおけるベクトル量子化長短期記憶単位を提案する。
ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。
提案するVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能が向上することを示す。
- 参考スコア(独自算出の注目度): 52.48566999668521
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Beam search, which is the dominant ASR decoding algorithm for end-to-end
models, generates tree-structured hypotheses. However, recent studies have
shown that decoding with hypothesis merging can achieve a more efficient search
with comparable or better performance. But, the full context in recurrent
networks is not compatible with hypothesis merging. We propose to use
vector-quantized long short-term memory units (VQ-LSTM) in the prediction
network of RNN transducers. By training the discrete representation jointly
with the ASR network, hypotheses can be actively merged for lattice generation.
Our experiments on the Switchboard corpus show that the proposed VQ RNN
transducers improve ASR performance over transducers with regular prediction
networks while also producing denser lattices with a very low oracle word error
rate (WER) for the same beam size. Additional language model rescoring
experiments also demonstrate the effectiveness of the proposed lattice
generation scheme.
- Abstract(参考訳): エンド・ツー・エンドモデルのASR復号アルゴリズムであるビームサーチは木構造仮説を生成する。
しかし、近年の研究では、仮説のマージによる復号化が、同等またはより良い性能でより効率的な探索を実現することが示されている。
しかし、リカレントネットワークのフルコンテキストは、仮説マージと互換性がない。
RNNトランスデューサの予測ネットワークにおいて,ベクトル量子化長短期メモリユニット(VQ-LSTM)を提案する。
ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。
提案したVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能を向上し,また,非常に低いオラクルワード誤り率(WER)を持つ高密度格子を同じビームサイズで生成することを示す。
追加の言語モデルリコーリング実験は、提案された格子生成スキームの有効性を実証する。
関連論文リスト
- Use of Parallel Explanatory Models to Enhance Transparency of Neural Network Configurations for Cell Degradation Detection [18.214293024118145]
我々は,ニューラルネットワークの内部動作を照らし,理解するための並列モデルを構築している。
RNNの各層が入力分布を変換して検出精度を高める方法を示す。
同時に、精度の向上を制限するために作用する副作用も発見する。
論文 参考訳(メタデータ) (2024-04-17T12:22:54Z) - Return of the RNN: Residual Recurrent Networks for Invertible Sentence
Embeddings [0.0]
本研究では、教師なし符号化タスクで訓練された残効再帰ネットワークを用いて、非可逆文埋め込みのための新しいモデルを提案する。
ニューラルネットワーク翻訳モデルに共通する確率的出力ではなく、回帰に基づく出力層を用いて入力シーケンスのワードベクトルを再構成する。
RNNはLSTMや2次最適化法などのメモリユニットを必要とすることを考えると、このモデルはADAMによる高精度かつ高速なトレーニングを実現している。
論文 参考訳(メタデータ) (2023-03-23T15:59:06Z) - Signal Processing for Implicit Neural Representations [80.38097216996164]
Inlicit Neural Representation (INR)は、マルチ層パーセプトロンを介して連続したマルチメディアデータを符号化する。
既存の作業は、その離散化されたインスタンスの処理を通じて、そのような連続的な表現を操作する。
本稿では,INSP-Netと呼ばれる暗黙的ニューラル信号処理ネットワークを提案する。
論文 参考訳(メタデータ) (2022-10-17T06:29:07Z) - Improving the fusion of acoustic and text representations in RNN-T [35.43599666228086]
我々は、より表現力のある表現を生成するために、ゲーティング、バイリニアプーリング、およびそれらを結合ネットワークで組み合わせることを提案する。
提案手法の併用により, 単語誤り率を4%-5%削減できることを示す。
論文 参考訳(メタデータ) (2022-01-25T11:20:50Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - CS-Rep: Making Speaker Verification Networks Embracing
Re-parameterization [27.38202134344989]
本研究では、モデルの推論速度と検証精度を高めるために、CS-Rep(クロスシーケンス再パラメータ化)を提案する。
Rep-TDNNは実際の推論速度を50%向上させ、EERを10%削減する。
論文 参考訳(メタデータ) (2021-10-26T08:00:03Z) - Robust lEarned Shrinkage-Thresholding (REST): Robust unrolling for
sparse recover [87.28082715343896]
我々は、モデルミス特定を前進させるのに堅牢な逆問題を解決するためのディープニューラルネットワークについて検討する。
我々は,アルゴリズムの展開手法を根底にある回復問題のロバストバージョンに適用することにより,新しい堅牢なディープニューラルネットワークアーキテクチャを設計する。
提案したRESTネットワークは,圧縮センシングとレーダイメージングの両問題において,最先端のモデルベースおよびデータ駆動アルゴリズムを上回る性能を示す。
論文 参考訳(メタデータ) (2021-10-20T06:15:45Z) - AIN: Fast and Accurate Sequence Labeling with Approximate Inference
Network [75.44925576268052]
線形鎖条件ランダム場(CRF)モデルは最も広く使われているニューラルネットワークラベリング手法の1つである。
厳密な確率的推論アルゴリズムは典型的にはCRFモデルの訓練と予測段階に適用される。
CRFモデルに対して並列化可能な近似変分推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-17T12:18:43Z) - Iterative Network for Image Super-Resolution [69.07361550998318]
単一画像超解像(SISR)は、最近の畳み込みニューラルネットワーク(CNN)の発展により、大幅に活性化されている。
本稿では、従来のSISRアルゴリズムに関する新たな知見を提供し、反復最適化に依存するアプローチを提案する。
反復最適化の上に,新しい反復型超解像ネットワーク (ISRN) を提案する。
論文 参考訳(メタデータ) (2020-05-20T11:11:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。