論文の概要: SSCFormer: Push the Limit of Chunk-wise Conformer for Streaming ASR
Using Sequentially Sampled Chunks and Chunked Causal Convolution
- arxiv url: http://arxiv.org/abs/2211.11419v4
- Date: Sun, 4 Feb 2024 08:03:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 07:19:49.547349
- Title: SSCFormer: Push the Limit of Chunk-wise Conformer for Streaming ASR
Using Sequentially Sampled Chunks and Chunked Causal Convolution
- Title(参考訳): SSCFormer: 逐次サンプリングチャンクとチャンク因果畳み込みを用いたASRストリーミングのためのチャンクワイズコンバータの限界を押し上げる
- Authors: Fangyuan Wang, Bo Xu, Bo Xu
- Abstract要約: 本研究では,ストリーミングASRにおけるチャンクワイド・コンバータの限界を押し上げるために,SCFormerを提案する。
我々は、End-to-End (E2E) CER 5.33%が達成できることを示す。
- 参考スコア(独自算出の注目度): 10.896823447820232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, the chunk-wise schemes are often used to make Automatic Speech
Recognition (ASR) models to support streaming deployment. However, existing
approaches are unable to capture the global context, lack support for parallel
training, or exhibit quadratic complexity for the computation of multi-head
self-attention (MHSA). On the other side, the causal convolution, no future
context used, has become the de facto module in streaming Conformer. In this
paper, we propose SSCFormer to push the limit of chunk-wise Conformer for
streaming ASR using the following two techniques: 1) A novel cross-chunks
context generation method, named Sequential Sampling Chunk (SSC) scheme, to
re-partition chunks from regular partitioned chunks to facilitate efficient
long-term contextual interaction within local chunks. 2)The Chunked Causal
Convolution (C2Conv) is designed to concurrently capture the left context and
chunk-wise future context. Evaluations on AISHELL-1 show that an End-to-End
(E2E) CER 5.33% can achieve, which even outperforms a strong time-restricted
baseline U2. Moreover, the chunk-wise MHSA computation in our model enables it
to train with a large batch size and perform inference with linear complexity.
- Abstract(参考訳): 現在、チャンクワイズ方式は、ストリーミングデプロイメントをサポートするために自動音声認識(ASR)モデルを作成するためにしばしば使用される。
しかしながら、既存のアプローチでは、グローバルコンテキストを捉えたり、並列トレーニングのサポートを欠いたり、マルチヘッドセルフアテンション(mhsa)の計算において二次的な複雑さを示すことができない。
一方、因果畳み込みは、将来のコンテキストを使用しないが、streaming conformerのデファクトモジュールになっている。
本稿では,SSCFormerを用いて,ASRストリーミングにおけるチャンクワイド・コンバータの限界を押し上げる手法を提案する。1) 局所チャンク内の長期的相互作用を容易にするために,正規分割チャンクからチャンクを再分割する,連続サンプリングチャンク(Sequential Sampling Chunk, SSC)方式という,新しいクロスチャンクコンテキスト生成手法を提案する。
2)Chunked Causal Convolution(C2Conv)は,左コンテキストとチャンクワイズ・フューチャーコンテキストを同時にキャプチャするように設計されている。
AISHELL-1の評価は、End-to-End (E2E) CER 5.33%が達成できることを示している。
さらに,本モデルにおけるチャンクワイドMHSA計算により,大規模なバッチサイズでトレーニングし,線形複雑度で推論を行うことができる。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Boundary-aware Decoupled Flow Networks for Realistic Extreme Rescaling [49.215957313126324]
Invertible rescaling Network (IRN) やgenerative adversarial Network (GAN) などを含む最近の生成手法は、画像再スケーリングにおいて例外的な性能を示した。
しかし、IRNベースの手法は過度に滑らかな結果を生成する傾向にあり、一方、GANベースの手法は偽の細部を容易に生成する。
本稿では,現実的かつ視覚的に満足な結果を生成するために,境界対応デカップリングフローネットワーク(BDFlow)を提案する。
論文 参考訳(メタデータ) (2024-05-05T14:05:33Z) - CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning [59.88924847995279]
MTSFのためのクロスモーダルLCMファインチューニング(CALF)フレームワークを提案する。
分散の相違を低減するため,クロスモーダルマッチングモジュールを開発した。
CALFは、長期および短期の予測タスクの最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-03-12T04:04:38Z) - StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video
Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。
本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。
StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文 参考訳(メタデータ) (2023-11-28T07:53:51Z) - DCTX-Conformer: Dynamic context carry-over for low latency unified
streaming and non-streaming Conformer ASR [20.42366884075422]
本稿では,最先端統合型ASRシステムにおける動的コンテキスト搬送機構の統合を提案する。
提案する動的コンテキストコンバータ (DCTX-Conformer) は、重複しないコンテキスト搬送機構を利用する。
単語誤り率25.0%でSOTAを上回り、追加のコンテキスト埋め込みによる遅延の影響は無視できる。
論文 参考訳(メタデータ) (2023-06-13T23:42:53Z) - Recurrent Attention Networks for Long-text Modeling [14.710722261441822]
本稿では, 自己注意の繰り返し動作を可能にするために, RAN(Recurrent Attention Network) という長文符号化モデルを提案する。
RANはトークンレベルの表現とドキュメントレベルの表現の両方でグローバルなセマンティクスを抽出することができ、シーケンシャルタスクと分類タスクの両方と本質的に互換性がある。
論文 参考訳(メタデータ) (2023-06-12T03:28:33Z) - Shifted Chunk Encoder for Transformer Based Streaming End-to-End ASR [7.828989755009444]
E2E ASRをストリーミングするための3つの側面の利点を享受するために、単一のモデルを構築します。
我々は、Shifted Chunk Transformer と Conformer をそれぞれ SChunk-Transofromer と SChunk-Conformer と命名した。
実験の結果、SChunk-TransformerとSChunk-ConformerはそれぞれCER 6.43%と5.77%を達成した。
論文 参考訳(メタデータ) (2022-03-29T03:02:35Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。