論文の概要: SSCFormer: Push the Limit of Chunk-wise Conformer for Streaming ASR
Using Sequentially Sampled Chunks and Chunked Causal Convolution
- arxiv url: http://arxiv.org/abs/2211.11419v4
- Date: Sun, 4 Feb 2024 08:03:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 07:19:49.547349
- Title: SSCFormer: Push the Limit of Chunk-wise Conformer for Streaming ASR
Using Sequentially Sampled Chunks and Chunked Causal Convolution
- Title(参考訳): SSCFormer: 逐次サンプリングチャンクとチャンク因果畳み込みを用いたASRストリーミングのためのチャンクワイズコンバータの限界を押し上げる
- Authors: Fangyuan Wang, Bo Xu, Bo Xu
- Abstract要約: 本研究では,ストリーミングASRにおけるチャンクワイド・コンバータの限界を押し上げるために,SCFormerを提案する。
我々は、End-to-End (E2E) CER 5.33%が達成できることを示す。
- 参考スコア(独自算出の注目度): 10.896823447820232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, the chunk-wise schemes are often used to make Automatic Speech
Recognition (ASR) models to support streaming deployment. However, existing
approaches are unable to capture the global context, lack support for parallel
training, or exhibit quadratic complexity for the computation of multi-head
self-attention (MHSA). On the other side, the causal convolution, no future
context used, has become the de facto module in streaming Conformer. In this
paper, we propose SSCFormer to push the limit of chunk-wise Conformer for
streaming ASR using the following two techniques: 1) A novel cross-chunks
context generation method, named Sequential Sampling Chunk (SSC) scheme, to
re-partition chunks from regular partitioned chunks to facilitate efficient
long-term contextual interaction within local chunks. 2)The Chunked Causal
Convolution (C2Conv) is designed to concurrently capture the left context and
chunk-wise future context. Evaluations on AISHELL-1 show that an End-to-End
(E2E) CER 5.33% can achieve, which even outperforms a strong time-restricted
baseline U2. Moreover, the chunk-wise MHSA computation in our model enables it
to train with a large batch size and perform inference with linear complexity.
- Abstract(参考訳): 現在、チャンクワイズ方式は、ストリーミングデプロイメントをサポートするために自動音声認識(ASR)モデルを作成するためにしばしば使用される。
しかしながら、既存のアプローチでは、グローバルコンテキストを捉えたり、並列トレーニングのサポートを欠いたり、マルチヘッドセルフアテンション(mhsa)の計算において二次的な複雑さを示すことができない。
一方、因果畳み込みは、将来のコンテキストを使用しないが、streaming conformerのデファクトモジュールになっている。
本稿では,SSCFormerを用いて,ASRストリーミングにおけるチャンクワイド・コンバータの限界を押し上げる手法を提案する。1) 局所チャンク内の長期的相互作用を容易にするために,正規分割チャンクからチャンクを再分割する,連続サンプリングチャンク(Sequential Sampling Chunk, SSC)方式という,新しいクロスチャンクコンテキスト生成手法を提案する。
2)Chunked Causal Convolution(C2Conv)は,左コンテキストとチャンクワイズ・フューチャーコンテキストを同時にキャプチャするように設計されている。
AISHELL-1の評価は、End-to-End (E2E) CER 5.33%が達成できることを示している。
さらに,本モデルにおけるチャンクワイドMHSA計算により,大規模なバッチサイズでトレーニングし,線形複雑度で推論を行うことができる。
関連論文リスト
- C2FAR: Coarse-to-Fine Autoregressive Networks for Precise Probabilistic
Forecasting [6.046449209642488]
粗大な自己回帰ネットワーク(C2FAR)が提示される。
C2FARは指数関数的に高い精度の値を表す。
我々はC2FARを用いて、繰り返しニューラルネットワークによる確率予測を行い、空間と時間の両方で時系列を自動回帰的にモデル化する。
論文 参考訳(メタデータ) (2023-12-22T16:37:52Z) - StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video
Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。
本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。
StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文 参考訳(メタデータ) (2023-11-28T07:53:51Z) - DCTX-Conformer: Dynamic context carry-over for low latency unified
streaming and non-streaming Conformer ASR [20.42366884075422]
本稿では,最先端統合型ASRシステムにおける動的コンテキスト搬送機構の統合を提案する。
提案する動的コンテキストコンバータ (DCTX-Conformer) は、重複しないコンテキスト搬送機構を利用する。
単語誤り率25.0%でSOTAを上回り、追加のコンテキスト埋め込みによる遅延の影響は無視できる。
論文 参考訳(メタデータ) (2023-06-13T23:42:53Z) - Recurrent Attention Networks for Long-text Modeling [14.710722261441822]
本稿では, 自己注意の繰り返し動作を可能にするために, RAN(Recurrent Attention Network) という長文符号化モデルを提案する。
RANはトークンレベルの表現とドキュメントレベルの表現の両方でグローバルなセマンティクスを抽出することができ、シーケンシャルタスクと分類タスクの両方と本質的に互換性がある。
論文 参考訳(メタデータ) (2023-06-12T03:28:33Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Computationally Budgeted Continual Learning: What Does Matter? [128.0827987414154]
CL (Continuous Learning) は、新しいデータに適応しながら、以前の知識を保存し、分布の異なる入力データのストリーム上でモデルを逐次訓練することを目的としている。
現在のCL文献では、以前のデータへのアクセス制限に焦点が当てられているが、トレーニングの計算予算に制約は課されていない。
本稿では,この問題を大規模ベンチマークで再検討し,計算制約条件下での従来のCL手法の性能解析を行う。
論文 参考訳(メタデータ) (2023-03-20T14:50:27Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Shifted Chunk Encoder for Transformer Based Streaming End-to-End ASR [7.828989755009444]
E2E ASRをストリーミングするための3つの側面の利点を享受するために、単一のモデルを構築します。
我々は、Shifted Chunk Transformer と Conformer をそれぞれ SChunk-Transofromer と SChunk-Conformer と命名した。
実験の結果、SChunk-TransformerとSChunk-ConformerはそれぞれCER 6.43%と5.77%を達成した。
論文 参考訳(メタデータ) (2022-03-29T03:02:35Z) - Complex Event Forecasting with Prediction Suffix Trees: Extended
Technical Report [70.7321040534471]
複合イベント認識(CER)システムは、イベントのリアルタイムストリーム上のパターンを"即時"検出する能力によって、過去20年間に人気が高まっている。
このような現象が実際にCERエンジンによって検出される前に、パターンがいつ発生するかを予測する方法が不足している。
複雑なイベント予測の問題に対処しようとする形式的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T09:52:31Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。