Fugu-MT 論文翻訳(概要): Deliberation of Streaming RNN-Transducer by Non-autoregressive Decoding

論文の概要: Deliberation of Streaming RNN-Transducer by Non-autoregressive Decoding

arxiv url: http://arxiv.org/abs/2112.11442v1
Date: Wed, 1 Dec 2021 01:34:28 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-26 13:17:57.231238
Title: Deliberation of Streaming RNN-Transducer by Non-autoregressive Decoding
Title（参考訳）: 非自己回帰復号によるストリーミングRNN変換器の検討
Authors: Weiran Wang, Ke Hu, Tara Sainath
Abstract要約: この方法は、テキスト機能とオーディオ機能の両方に対応するトランスフォーマーデコーダを各ステップで共有する、いくつかの改善ステップを実行する。本研究では,ストリーミングRNN-Tモデルの仮説アライメントを条件に,第1パスRNN-Tよりも精度の高い認識結果が得られることを示す。
参考スコア（独自算出の注目度）: 21.978994865937786
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose to deliberate the hypothesis alignment of a streaming RNN-T model with the previously proposed Align-Refine non-autoregressive decoding method and its improved versions. The method performs a few refinement steps, where each step shares a transformer decoder that attends to both text features (extracted from alignments) and audio features, and outputs complete updated alignments. The transformer decoder is trained with the CTC loss which facilitates parallel greedy decoding, and performs full-context attention to capture label dependencies. We improve Align-Refine by introducing cascaded encoder that captures more audio context before refinement, and alignment augmentation which enforces learning label dependency. We show that, conditioned on hypothesis alignments of a streaming RNN-T model, our method obtains significantly more accurate recognition results than the first-pass RNN-T, with only small amount of model parameters.
Abstract（参考訳）: 本稿では,ストリーミングrnn-tモデルの仮説アラインメントを,先行提案する非自己回帰復号法と改良版とで検討する。この方法はいくつかの改良ステップを実行し、各ステップはテキスト機能(アライメントから抽出された)とオーディオ機能の両方に対応するトランスフォーマーデコーダを共有し、完全なアライメントを出力する。トランスデコーダは、並列グリーディ復号を容易にするCTC損失を訓練し、ラベル依存をキャプチャするために全コンテキストアテンションを実行する。我々は、改良前のより多くのオーディオコンテキストをキャプチャするカスケードエンコーダを導入し、学習ラベル依存を強制するアライメント強化により、Align-Refineを改善する。本稿では,ストリーミングRNN-Tモデルの仮説アライメントを条件に,モデルパラメータの少ない第1パスRNN-Tよりもはるかに正確な認識結果が得られることを示す。

関連論文リスト

Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。 APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文参考訳（メタデータ） (2025-05-31T06:10:10Z)
Aligner-Encoders: Self-Attention Transformers Can Be Self-Transducers [14.91083492000769]
近年採用されているトランス方式のエンコーダは,フォワードパス中に内部的にアライメントを行うことができることを示す。この新たな現象により、よりシンプルで効率的なモデル"Aligner-Encoder"が実現される。我々は,芸術の状況に非常に近い性能を実証する実験を行った。
論文参考訳（メタデータ） (2025-02-06T22:09:52Z)
Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。 CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文参考訳（メタデータ） (2023-12-27T21:04:26Z)
Learned layered coding for Successive Refinement in the Wyner-Ziv Problem [18.134147308944446]
本稿では,連続したソースのプログレッシブエンコーディングを明示的に学習するためのデータ駆動型アプローチを提案する。この設定は、Wyner-Ziv符号問題の連続的な改善を指す。我々は、RNNがスケーラブルなネスト量子化と同様の層状ビニングソリューションを明示的に検索できることを実証した。
論文参考訳（メタデータ） (2023-11-06T12:45:32Z)
AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文参考訳（メタデータ） (2023-07-12T11:32:02Z)
Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文参考訳（メタデータ） (2022-11-03T20:20:47Z)
Streaming Align-Refine for Non-autoregressive Deliberation [42.748839817396046]
本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。提案アルゴリズムは,単純なグリーディ復号処理を容易にし,同時に各フレームにおける復号結果を,限られた適切なコンテキストで生成することができる。音声検索データセットとLibrispeechの実験は、合理的な適切なコンテキストで、ストリーミングモデルがオフラインと同等に動作していることを示しています。
論文参考訳（メタデータ） (2022-04-15T17:24:39Z)
Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文参考訳（メタデータ） (2022-03-27T15:25:58Z)
Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。 CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文参考訳（メタデータ） (2021-11-01T21:51:42Z)
On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文参考訳（メタデータ） (2021-04-27T23:31:43Z)
Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文参考訳（メタデータ） (2020-12-07T14:16:14Z)
Transformer Transducer: A Streamable Speech Recognition Model with Transformer Encoders and RNN-T Loss [14.755108017449295]
本稿では,ストリーム音声認識システムで使用可能なTransformerエンコーダを用いたエンドツーエンド音声認識モデルを提案する。自己アテンションに基づくトランスフォーマー計算ブロックは、オーディオシーケンスとラベルシーケンスの両方を独立に符号化するために使用される。 We present results on the LibriSpeech dataset shows that limiting the left context for self-attention makes decodinglytractable for streaming。
論文参考訳（メタデータ） (2020-02-07T00:04:04Z)
Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文参考訳（メタデータ） (2020-01-08T18:58:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。