Fugu-MT 論文翻訳(概要): Streaming Align-Refine for Non-autoregressive Deliberation

論文の概要: Streaming Align-Refine for Non-autoregressive Deliberation

arxiv url: http://arxiv.org/abs/2204.07556v1
Date: Fri, 15 Apr 2022 17:24:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-18 14:58:11.467023
Title: Streaming Align-Refine for Non-autoregressive Deliberation
Title（参考訳）: 非自己回帰的検討のためのストリーミングアライメント
Authors: Weiran Wang, Ke Hu, Tara N. Sainath
Abstract要約: 本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。提案アルゴリズムは,単純なグリーディ復号処理を容易にし,同時に各フレームにおける復号結果を,限られた適切なコンテキストで生成することができる。音声検索データセットとLibrispeechの実験は、合理的な適切なコンテキストで、ストリーミングモデルがオフラインと同等に動作していることを示しています。
参考スコア（独自算出の注目度）: 42.748839817396046
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a streaming non-autoregressive (non-AR) decoding algorithm to deliberate the hypothesis alignment of a streaming RNN-T model. Our algorithm facilitates a simple greedy decoding procedure, and at the same time is capable of producing the decoding result at each frame with limited right context, thus enjoying both high efficiency and low latency. These advantages are achieved by converting the offline Align-Refine algorithm to be streaming-compatible, with a novel transformer decoder architecture that performs local self-attentions for both text and audio, and a time-aligned cross-attention at each layer. Furthermore, we perform discriminative training of our model with the minimum word error rate (MWER) criterion, which has not been done in the non-AR decoding literature. Experiments on voice search datasets and Librispeech show that with reasonable right context, our streaming model performs as well as the offline counterpart, and discriminative training leads to further WER gain when the first-pass model has small capacity.
Abstract（参考訳）: 本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。提案アルゴリズムは, 簡単なグリーディ復号処理を容易にし, 同時に, 適切なコンテキストに制限された各フレームで復号結果を生成することができ, 高い効率と低レイテンシの両方を享受できる。これらの利点は、オフラインのアライメント・リフィナントアルゴリズムをストリーミング互換に変換し、テキストとオーディオの両方でローカルな自己アタッチを実行する新しいトランスフォーマデコーダアーキテクチャと、各層でタイムアライメントされたクロスアテンションによって達成される。さらに,非AR復号法では行われていない最小単語誤り率(MWER)基準を用いて,本モデルの識別訓練を行う。音声検索データセットとLibrispeechの実験では、適切な適切なコンテキスト下では、ストリーミングモデルがオフラインモデルと同様に動作し、差別的なトレーニングによって、ファーストパスモデルが少ない場合にWERがさらに向上することを示した。

関連論文リスト

Free Draft-and-Verification: Toward Lossless Parallel Decoding for Diffusion Large Language Models [8.407364705777587]
本稿では,DLLMに適した高速デコードアルゴリズムFree Draft-and-Verification(FreeDave)を紹介する。 FreeDaveは、パフォーマンスを低下させることなく、推論スループットを最大3.78倍に向上させることが証明されている。
論文参考訳（メタデータ） (2025-09-30T21:28:04Z)
CarelessWhisper: Turning Whisper into a Causal Streaming Model [31.38962687054824]
本稿では,エンコーダ・デコーダ変換器を低遅延ストリーミングモデルに変換することが簡単でない理由を説明する。提案手法は,既存の(非因果的)エンコーダを,エンコーダとデコーダの両方を微調整することによって因果的エンコーダに修正する。低レイテンシチャンクサイズ(300msec未満)の実験では、我々の微調整されたモデルが既存の非微調整のストリーミングアプローチより優れていることが示されている。
論文参考訳（メタデータ） (2025-08-17T09:32:40Z)
Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。 APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文参考訳（メタデータ） (2025-05-31T06:10:10Z)
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文参考訳（メタデータ） (2025-05-28T17:39:15Z)
Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。 CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文参考訳（メタデータ） (2023-12-27T21:04:26Z)
Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文参考訳（メタデータ） (2023-09-19T20:55:58Z)
Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文参考訳（メタデータ） (2022-11-03T20:20:47Z)
Deliberation of Streaming RNN-Transducer by Non-autoregressive Decoding [21.978994865937786]
この方法は、テキスト機能とオーディオ機能の両方に対応するトランスフォーマーデコーダを各ステップで共有する、いくつかの改善ステップを実行する。本研究では,ストリーミングRNN-Tモデルの仮説アライメントを条件に,第1パスRNN-Tよりも精度の高い認識結果が得られることを示す。
論文参考訳（メタデータ） (2021-12-01T01:34:28Z)
Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。エンドツーエンドのNAR音声認識システムを提案する。提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文参考訳（メタデータ） (2021-07-20T11:42:26Z)
WNARS: WFST based Non-autoregressive Streaming End-to-End Speech Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。 AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文参考訳（メタデータ） (2021-04-08T07:56:03Z)
Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech Recognition [19.971343876930767]
ストリーミングと非ストリーミングエンドツーエンド(E2E)音声認識を1つのモデルで統一する,新たな2パス方式を提案する。本モデルでは,エンコーダのコンフォメータ層を改良したハイブリッドCTC/アテンションアーキテクチャを採用している。オープンな170時間AISHELL-1データセットの実験により、提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統一できることを示した。
論文参考訳（メタデータ） (2020-12-10T06:54:54Z)
Conv-Transformer Transducer: Low Latency, Low Frame Rate, Streamable End-to-End Speech Recognition [8.046120977786702]
Transformerは自動音声認識(ASR)における最先端のエンドツーエンドモデルと競合する性能を達成したエンコーダ-デコーダアーキテクチャを備えたオリジナルのTransformerは、オフラインのASRにのみ適合する。 Conv-Transformer Transducerという名前のこのアーキテクチャは、外部言語モデルなしでLibriSpeechデータセット(3.6% WER on test-clean)の競合性能を実現する。
論文参考訳（メタデータ） (2020-08-13T08:20:02Z)
Transformer Transducer: A Streamable Speech Recognition Model with Transformer Encoders and RNN-T Loss [14.755108017449295]
本稿では,ストリーム音声認識システムで使用可能なTransformerエンコーダを用いたエンドツーエンド音声認識モデルを提案する。自己アテンションに基づくトランスフォーマー計算ブロックは、オーディオシーケンスとラベルシーケンスの両方を独立に符号化するために使用される。 We present results on the LibriSpeech dataset shows that limiting the left context for self-attention makes decodinglytractable for streaming。
論文参考訳（メタデータ） (2020-02-07T00:04:04Z)
Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文参考訳（メタデータ） (2020-01-08T18:58:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。