論文の概要: Accelerating RNN Transducer Inference via One-Step Constrained Beam
Search
- arxiv url: http://arxiv.org/abs/2002.03577v1
- Date: Mon, 10 Feb 2020 06:51:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 09:48:12.558643
- Title: Accelerating RNN Transducer Inference via One-Step Constrained Beam
Search
- Title(参考訳): 1ステップ制約ビームサーチによるRNNトランスデューサの高速化
- Authors: Juntae Kim and Yoonhan Lee
- Abstract要約: 本稿では,リカレントニューラルネットワーク (RNN) トランスデューサ (RNN-T) 推論を高速化する一段階拘束型 (OSC) ビーム探索を提案する。
我々は,低音素・単語誤り率の他のRNN-Tビーム探索法と比較して,大幅な高速化を実現した。
- 参考スコア(独自算出の注目度): 10.406659081400353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a one-step constrained (OSC) beam search to accelerate recurrent
neural network (RNN) transducer (RNN-T) inference. The original RNN-T beam
search has a while-loop leading to speed down of the decoding process. The OSC
beam search eliminates this while-loop by vectorizing multiple hypotheses. This
vectorization is nontrivial as the expansion of the hypotheses within the
original RNN-T beam search can be different from each other. However, we found
that the hypotheses expanded only once at each decoding step in most cases;
thus, we constrained the maximum expansion number to one, thereby allowing
vectorization of the hypotheses. For further acceleration, we assign
constraints to the prefixes of the hypotheses to prune the redundant search
space. In addition, OSC beam search has duplication check among hypotheses
during the decoding process as duplication can undesirably shrink the search
space. We achieved significant speedup compared with other RNN-T beam search
methods with lower phoneme and word error rate.
- Abstract(参考訳): 本稿では,リカレントニューラルネットワーク (RNN) トランスデューサ (RNN-T) 推論を高速化する一段階拘束型 (OSC) ビーム探索を提案する。
元々のRNN-Tビームサーチは、復号処理の高速化につながる時間ループを持つ。
OSCビームサーチは、この時ループを複数の仮説をベクトル化することによって排除する。
このベクトル化は、元のrnn-tビーム探索における仮説の展開が互いに異なるため、非自明である。
しかし,この仮説はデコードステップ毎に1回しか拡張されないことが判明し,最大展開数を1に制限することで,仮説のベクトル化が可能となった。
さらなる加速のために、冗長な探索空間をpruneするために仮定の接頭辞に制約を割り当てる。
さらに、oscビーム探索は復号過程中の仮説間で重複チェックを行い、重複は検索空間を望ましくないほど縮小することができる。
音素や単語誤り率の低い他のrnn-tビーム探索法と比較して,高速化が図られた。
関連論文リスト
- Latent Schrodinger Bridge: Prompting Latent Diffusion for Fast Unpaired Image-to-Image Translation [58.19676004192321]
ノイズからの画像生成とデータからの逆変換の両方を可能にする拡散モデル (DM) は、強力な未ペア画像対イメージ(I2I)翻訳アルゴリズムにインスピレーションを与えている。
我々は、最小輸送コストの分布間の微分方程式(SDE)であるSchrodinger Bridges (SBs) を用いてこの問題に取り組む。
この観測に触発されて,SB ODE を予め訓練した安定拡散により近似する潜在シュロディンガー橋 (LSB) を提案する。
提案アルゴリズムは,従来のDMのコストをわずかに抑えながら,教師なし環境での競合的I2I翻訳を実現していることを示す。
論文 参考訳(メタデータ) (2024-11-22T11:24:14Z) - Smoothing ADMM for Sparse-Penalized Quantile Regression with Non-Convex
Penalties [8.294148737585543]
本稿では,非二次絶対および非平滑収束ペナルティの存在下での凹凸および切断された量子レグレッションについて検討する。
本稿では,スパース回帰に特化してSIADと呼ばれるペナルティ乗算器が増加する新しいループADMアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-04T21:48:51Z) - Decomposed Diffusion Sampler for Accelerating Large-Scale Inverse
Problems [64.29491112653905]
本稿では, 拡散サンプリング法とクリロフ部分空間法を相乗的に組み合わせた, 新規で効率的な拡散サンプリング手法を提案する。
具体的には、ツイーディの公式による分母化標本における接空間がクリロフ部分空間を成すならば、その分母化データによるCGは、接空間におけるデータの整合性更新を確実に維持する。
提案手法は,従来の最先端手法よりも80倍以上高速な推論時間を実現する。
論文 参考訳(メタデータ) (2023-03-10T07:42:49Z) - A Token-Wise Beam Search Algorithm for RNN-T [3.682821163882332]
本稿では,複数の時間ステップにまたがる共同ネットワークコールをバッチ化する復号ビーム探索アルゴリズムを提案する。
さらに、セグメント上での放射確率の集約は、最も可能性の高いモデル出力を見つけるためのより良い近似と見なすことができる。
論文 参考訳(メタデータ) (2023-02-28T07:20:49Z) - Fast and parallel decoding for transducer [25.510837666148024]
本研究では,トランスデューサ損失の制約付きバージョンを導入し,シーケンス間のモノトニックアライメントを厳密に学習する。
また、時間毎に出力できるシンボルの数を制限することで、標準の欲求探索とビーム探索アルゴリズムを改善した。
論文 参考訳(メタデータ) (2022-10-31T07:46:10Z) - VQ-T: RNN Transducers using Vector-Quantized Prediction Network States [52.48566999668521]
本稿では,RNNトランスデューサの予測ネットワークにおけるベクトル量子化長短期記憶単位を提案する。
ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。
提案するVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-03T02:45:52Z) - Determinantal Beam Search [75.84501052642361]
ビームサーチは、ニューラルシーケンスモデルをデコードするためのゴーツー戦略である。
複数のソリューションを要求するユースケースでは、多様あるいは代表的なセットがしばしば望まれる。
ビームサーチを一連の部分決定問題として繰り返し行うことにより、アルゴリズムを多種多様なサブセット選択プロセスに変換することができる。
論文 参考訳(メタデータ) (2021-06-14T13:01:46Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - Best-First Beam Search [78.71330480725668]
本研究では,ビームサーチの標準実装を10倍高速に実現可能であることを示す。
ダウンストリーム性能の面でも同様に有益な探索バイアスを有するBest-First Beam Searchのメモリ再生版を提案する。
論文 参考訳(メタデータ) (2020-07-08T05:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。