論文の概要: Sequentially Sampled Chunk Conformer for Streaming End-to-End ASR
- arxiv url: http://arxiv.org/abs/2211.11419v3
- Date: Thu, 22 Jun 2023 09:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 17:50:54.926315
- Title: Sequentially Sampled Chunk Conformer for Streaming End-to-End ASR
- Title(参考訳): ストリーミングエンドツーエンドasrのための逐次サンプリングチャンクコンフォメータ
- Authors: Fangyuan Wang, Bo Xu
- Abstract要約: 本稿では,E2E(End-to-End)ASRストリーミングのための逐次サンプリング型チャンクコンバータ(SSC-Conformer)を提案する。
線形複雑度を維持しながら効率的なクロスチャンク相互作用を可能にする。
LM再構成なしでCER 5.33%でE2E ASRをストリーミングするための最先端性能を実現している。
- 参考スコア(独自算出の注目度): 7.828989755009444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an in-depth study on a Sequentially Sampled Chunk
Conformer, SSC-Conformer, for streaming End-to-End (E2E) ASR. The SSC-Conformer
first demonstrates the significant performance gains from using the
sequentially sampled chunk-wise multi-head self-attention (SSC-MHSA) in the
Conformer encoder by allowing efficient cross-chunk interactions while keeping
linear complexities. Furthermore, it explores taking advantage of chunked
convolution to make use of the chunk-wise future context and integrates with
casual convolution in the convolution layers to further reduce CER. We verify
the proposed SSC-Conformer on the AISHELL-1 benchmark and experimental results
show that a state-of-the-art performance for streaming E2E ASR is achieved with
CER 5.33% without LM rescoring. And, owing to its linear complexity, the
SSC-Conformer can train with large batch sizes and infer more efficiently.
- Abstract(参考訳): 本稿では,End-to-End (E2E) ASR ストリーミングのための逐次サンプリング型チャンクコンバータ SSC-Conformer について詳細に検討する。
ssc-conformerは、並列エンコーダにおけるチャンクワイズマルチヘッドセルフアテンション(ssc-mhsa)の逐次サンプリングにより、線形複素性を維持しつつ効率的なクロスチャンク相互作用を実現することにより、大幅な性能向上を実現する。
さらに、チャンクド畳み込みを利用してチャンク回りの将来のコンテキストを利用し、畳み込み層のカジュアル畳み込みと統合することで、cerをさらに削減する。
提案するssc-conformerをaishell-1ベンチマークで検証し,実験結果から,ストリーミングe2e asrの最先端性能はlmリコーリングを伴わないcer 5.33%で達成できることを確認した。
また、線形複雑性のため、SC-Conformerは大きなバッチサイズでトレーニングでき、より効率的に推論できる。
関連論文リスト
- Boundary-aware Decoupled Flow Networks for Realistic Extreme Rescaling [49.215957313126324]
Invertible rescaling Network (IRN) やgenerative adversarial Network (GAN) などを含む最近の生成手法は、画像再スケーリングにおいて例外的な性能を示した。
しかし、IRNベースの手法は過度に滑らかな結果を生成する傾向にあり、一方、GANベースの手法は偽の細部を容易に生成する。
本稿では,現実的かつ視覚的に満足な結果を生成するために,境界対応デカップリングフローネットワーク(BDFlow)を提案する。
論文 参考訳(メタデータ) (2024-05-05T14:05:33Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - C2FAR: Coarse-to-Fine Autoregressive Networks for Precise Probabilistic
Forecasting [6.046449209642488]
粗大な自己回帰ネットワーク(C2FAR)が提示される。
C2FARは指数関数的に高い精度の値を表す。
我々はC2FARを用いて、繰り返しニューラルネットワークによる確率予測を行い、空間と時間の両方で時系列を自動回帰的にモデル化する。
論文 参考訳(メタデータ) (2023-12-22T16:37:52Z) - StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video
Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。
本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。
StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文 参考訳(メタデータ) (2023-11-28T07:53:51Z) - DCTX-Conformer: Dynamic context carry-over for low latency unified
streaming and non-streaming Conformer ASR [20.42366884075422]
本稿では,最先端統合型ASRシステムにおける動的コンテキスト搬送機構の統合を提案する。
提案する動的コンテキストコンバータ (DCTX-Conformer) は、重複しないコンテキスト搬送機構を利用する。
単語誤り率25.0%でSOTAを上回り、追加のコンテキスト埋め込みによる遅延の影響は無視できる。
論文 参考訳(メタデータ) (2023-06-13T23:42:53Z) - Recurrent Attention Networks for Long-text Modeling [14.710722261441822]
本稿では, 自己注意の繰り返し動作を可能にするために, RAN(Recurrent Attention Network) という長文符号化モデルを提案する。
RANはトークンレベルの表現とドキュメントレベルの表現の両方でグローバルなセマンティクスを抽出することができ、シーケンシャルタスクと分類タスクの両方と本質的に互換性がある。
論文 参考訳(メタデータ) (2023-06-12T03:28:33Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Shifted Chunk Encoder for Transformer Based Streaming End-to-End ASR [7.828989755009444]
E2E ASRをストリーミングするための3つの側面の利点を享受するために、単一のモデルを構築します。
我々は、Shifted Chunk Transformer と Conformer をそれぞれ SChunk-Transofromer と SChunk-Conformer と命名した。
実験の結果、SChunk-TransformerとSChunk-ConformerはそれぞれCER 6.43%と5.77%を達成した。
論文 参考訳(メタデータ) (2022-03-29T03:02:35Z) - Complex Event Forecasting with Prediction Suffix Trees: Extended
Technical Report [70.7321040534471]
複合イベント認識(CER)システムは、イベントのリアルタイムストリーム上のパターンを"即時"検出する能力によって、過去20年間に人気が高まっている。
このような現象が実際にCERエンジンによって検出される前に、パターンがいつ発生するかを予測する方法が不足している。
複雑なイベント予測の問題に対処しようとする形式的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T09:52:31Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。