論文の概要: Efficient Sequence Transduction by Jointly Predicting Tokens and
Durations
- arxiv url: http://arxiv.org/abs/2304.06795v2
- Date: Mon, 29 May 2023 21:08:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 00:59:56.228664
- Title: Efficient Sequence Transduction by Jointly Predicting Tokens and
Durations
- Title(参考訳): トークンと期間の同時予測による効率の良いシーケンス変換
- Authors: Hainan Xu, Fei Jia, Somshubra Majumdar, He Huang, Shinji Watanabe,
Boris Ginsburg
- Abstract要約: シーケンス・ツー・シーケンスタスクのためのToken-and-Duration Transducer (TDT)アーキテクチャ。
TDTはトークンとその期間を共同で予測することで、従来のRNN-Transducerアーキテクチャを拡張している。
推測中、TDTモデルは予測期間出力によって導かれる入力フレームをスキップすることができる。
- 参考スコア(独自算出の注目度): 41.45674879886209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel Token-and-Duration Transducer (TDT)
architecture for sequence-to-sequence tasks. TDT extends conventional
RNN-Transducer architectures by jointly predicting both a token and its
duration, i.e. the number of input frames covered by the emitted token. This is
achieved by using a joint network with two outputs which are independently
normalized to generate distributions over tokens and durations. During
inference, TDT models can skip input frames guided by the predicted duration
output, which makes them significantly faster than conventional Transducers
which process the encoder output frame by frame. TDT models achieve both better
accuracy and significantly faster inference than conventional Transducers on
different sequence transduction tasks. TDT models for Speech Recognition
achieve better accuracy and up to 2.82X faster inference than conventional
Transducers. TDT models for Speech Translation achieve an absolute gain of over
1 BLEU on the MUST-C test compared with conventional Transducers, and its
inference is 2.27X faster. In Speech Intent Classification and Slot Filling
tasks, TDT models improve the intent accuracy by up to over 1% (absolute) over
conventional Transducers, while running up to 1.28X faster. Our implementation
of the TDT model will be open-sourced with the NeMo
(https://github.com/NVIDIA/NeMo) toolkit.
- Abstract(参考訳): 本稿では,シーケンス・ツー・シーケンスタスクのための新しいToken-and-Duration Transducer (TDT)アーキテクチャを提案する。
TDTは従来のRNN-Transducerアーキテクチャを拡張し、トークンとその期間、すなわち出力されたトークンでカバーされる入力フレームの数の両方を共同で予測する。
これは、2つの出力を独立に正規化してトークンと期間の分布を生成するジョイントネットワークを使用することで達成される。
推論中、TDTモデルは予測期間出力によって導かれる入力フレームをスキップすることができるため、エンコーダ出力フレームをフレーム単位で処理する従来のトランスデューサよりも大幅に高速である。
TDTモデルは、従来のトランスデューサよりも精度が高く、推論もかなり高速である。
音声認識のためのTDTモデルは従来のトランスデューサよりも2.82倍高速な推論を実現する。
TDTモデルは、従来のトランスデューサと比較してMUST-Cテストで1 BLEU以上の絶対ゲインを達成し、推論は2.27倍高速である。
Speech Intent ClassificationとSlot Fillingタスクでは、TDTモデルは従来のトランスデューサよりも最大1%(絶対)精度を向上し、最大1.28倍高速に動作している。
TDTモデルの実装はNeMo (https://github.com/NVIDIA/NeMo)ツールキットでオープンソース化されます。
関連論文リスト
- Optimized Multi-Token Joint Decoding with Auxiliary Model for LLM Inference [41.93955876156331]
大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めた。
推論プロセスは、デコードの各ステップにおける単一トーケン生成により、相当な時間とエネルギー要求によって妨げられる。
MTJD を高速化する新しいフレームワークである Multi-token Assisted Decoding (MTAD) を導入する。
論文 参考訳(メタデータ) (2024-07-12T23:29:54Z) - DiTTo-TTS: Efficient and Scalable Zero-Shot Text-to-Speech with Diffusion Transformer [9.032701216955497]
市販の事前学習テキストと音声エンコーダを利用した効率よくスケーラブルな拡散変換器(DiT)を提案する。
提案手法は, 音声表現の総長の予測により, テキスト・音声アライメントの課題に対処する。
トレーニングデータセットとモデルサイズはそれぞれ82K時間と790Mパラメータにスケールします。
論文 参考訳(メタデータ) (2024-06-17T11:25:57Z) - Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。
我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。
CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文 参考訳(メタデータ) (2023-12-27T21:04:26Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文 参考訳(メタデータ) (2021-04-07T03:15:10Z) - Spike-Triggered Non-Autoregressive Transformer for End-to-End Speech
Recognition [66.47000813920617]
エンドツーエンド音声認識のためのスパイクトリガー付き非自己回帰変換器モデルを提案する。
提案モデルでは,ターゲット列の長さを正確に予測し,競合性能を実現する。
このモデルは0.0056のリアルタイム係数も達成しており、全ての主流音声認識モデルを超えている。
論文 参考訳(メタデータ) (2020-05-16T08:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。