Fugu-MT 論文翻訳(概要): SSCFormer: Push the Limit of Chunk-wise Conformer for Streaming ASR Using Sequentially Sampled Chunks and Chunked Causal Convolution

論文の概要: SSCFormer: Push the Limit of Chunk-wise Conformer for Streaming ASR Using Sequentially Sampled Chunks and Chunked Causal Convolution

arxiv url: http://arxiv.org/abs/2211.11419v4
Date: Sun, 4 Feb 2024 08:03:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 07:19:49.547349
Title: SSCFormer: Push the Limit of Chunk-wise Conformer for Streaming ASR Using Sequentially Sampled Chunks and Chunked Causal Convolution
Title（参考訳）: SSCFormer: 逐次サンプリングチャンクとチャンク因果畳み込みを用いたASRストリーミングのためのチャンクワイズコンバータの限界を押し上げる
Authors: Fangyuan Wang, Bo Xu, Bo Xu
Abstract要約: 本研究では,ストリーミングASRにおけるチャンクワイド・コンバータの限界を押し上げるために,SCFormerを提案する。我々は、End-to-End (E2E) CER 5.33%が達成できることを示す。
参考スコア（独自算出の注目度）: 10.896823447820232
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Currently, the chunk-wise schemes are often used to make Automatic Speech Recognition (ASR) models to support streaming deployment. However, existing approaches are unable to capture the global context, lack support for parallel training, or exhibit quadratic complexity for the computation of multi-head self-attention (MHSA). On the other side, the causal convolution, no future context used, has become the de facto module in streaming Conformer. In this paper, we propose SSCFormer to push the limit of chunk-wise Conformer for streaming ASR using the following two techniques: 1) A novel cross-chunks context generation method, named Sequential Sampling Chunk (SSC) scheme, to re-partition chunks from regular partitioned chunks to facilitate efficient long-term contextual interaction within local chunks. 2)The Chunked Causal Convolution (C2Conv) is designed to concurrently capture the left context and chunk-wise future context. Evaluations on AISHELL-1 show that an End-to-End (E2E) CER 5.33% can achieve, which even outperforms a strong time-restricted baseline U2. Moreover, the chunk-wise MHSA computation in our model enables it to train with a large batch size and perform inference with linear complexity.
Abstract（参考訳）: 現在、チャンクワイズ方式は、ストリーミングデプロイメントをサポートするために自動音声認識(ASR)モデルを作成するためにしばしば使用される。しかしながら、既存のアプローチでは、グローバルコンテキストを捉えたり、並列トレーニングのサポートを欠いたり、マルチヘッドセルフアテンション(mhsa)の計算において二次的な複雑さを示すことができない。一方、因果畳み込みは、将来のコンテキストを使用しないが、streaming conformerのデファクトモジュールになっている。本稿では,SSCFormerを用いて,ASRストリーミングにおけるチャンクワイド・コンバータの限界を押し上げる手法を提案する。1) 局所チャンク内の長期的相互作用を容易にするために,正規分割チャンクからチャンクを再分割する,連続サンプリングチャンク(Sequential Sampling Chunk, SSC)方式という,新しいクロスチャンクコンテキスト生成手法を提案する。 2)Chunked Causal Convolution(C2Conv)は,左コンテキストとチャンクワイズ・フューチャーコンテキストを同時にキャプチャするように設計されている。 AISHELL-1の評価は、End-to-End (E2E) CER 5.33%が達成できることを示している。さらに,本モデルにおけるチャンクワイドMHSA計算により,大規模なバッチサイズでトレーニングし,線形複雑度で推論を行うことができる。

関連論文リスト

Next Tokens Denoising for Speech Synthesis [51.320443764269726]
Dragon-FMは、ARとフローマッチングを統合する新しいテキスト音声(TTS)設計である。毎秒12.5トークンのコンパクトレートで48kHzのオーディオトークンをチャンクで処理する。ポッドキャストデータセットの実験では、高品質なゼロショットポッドキャストを効率的に生成できることが示されている。
論文参考訳（メタデータ） (2025-07-30T15:03:36Z)
CCLSTM: Coupled Convolutional Long-Short Term Memory Network for Occupancy Flow Forecasting [0.0]
textbfCoupled Convolutional LSTM (CTM) を提案する。 CTMは、占有フローのメトリクスに関する最先端のパフォーマンスを達成し、この提出の時点で、2024年のOccupancy and Flow Prediction Challengeのリーダーボード上のすべてのメトリクス(テキスト)にランク付けされている。
論文参考訳（メタデータ） (2025-06-06T14:38:55Z)
Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers [58.98923344096319]
REFORMは、2フェーズアプローチによって、長いコンテキストを効率的に処理する新しい推論フレームワークである。 RULERとBABILongでそれぞれ1Mコンテキスト長で50%以上と27%のパフォーマンス向上を達成した。また、Infinite-BenchとMM-NIAHのベースラインを上回り、さまざまなタスクやドメインの柔軟性を示す。
論文参考訳（メタデータ） (2025-06-01T23:49:14Z)
Training Long-Context LLMs Efficiently via Chunk-wise Optimization [60.05884946552877]
textitSequential Chunk-wise Optimization (SeCO) は、長い入力を管理可能なチャンクに分割するメモリ効率の訓練パラダイムである。 textitSparse Chunk-wise Optimization (SpaCO)を導入し、特定のチャンクへの勾配を選択的に伝播することで計算オーバーヘッドを削減する。 SpaCOは、コンテキスト長からバックプロパゲーションの計算コストを分離し、シーケンスが長くなるにつれて、トレーニング時間が徐々に推論時間に収束することを可能にする。
論文参考訳（メタデータ） (2025-05-22T14:11:34Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文参考訳（メタデータ） (2024-09-04T14:26:58Z)
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力であるこの研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文参考訳（メタデータ） (2024-07-01T17:59:47Z)
Boundary-aware Decoupled Flow Networks for Realistic Extreme Rescaling [49.215957313126324]
Invertible rescaling Network (IRN) やgenerative adversarial Network (GAN) などを含む最近の生成手法は、画像再スケーリングにおいて例外的な性能を示した。しかし、IRNベースの手法は過度に滑らかな結果を生成する傾向にあり、一方、GANベースの手法は偽の細部を容易に生成する。本稿では,現実的かつ視覚的に満足な結果を生成するために,境界対応デカップリングフローネットワーク(BDFlow)を提案する。
論文参考訳（メタデータ） (2024-05-05T14:05:33Z)
CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning [59.88924847995279]
MTSFのためのクロスモーダルLCMファインチューニング(CALF)フレームワークを提案する。分散の相違を低減するため,クロスモーダルマッチングモジュールを開発した。 CALFは、長期および短期の予測タスクの最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2024-03-12T04:04:38Z)
C2FAR: Coarse-to-Fine Autoregressive Networks for Precise Probabilistic Forecasting [6.046449209642488]
粗大な自己回帰ネットワーク(C2FAR)が提示される。 C2FARは指数関数的に高い精度の値を表す。我々はC2FARを用いて、繰り返しニューラルネットワークによる確率予測を行い、空間と時間の両方で時系列を自動回帰的にモデル化する。
論文参考訳（メタデータ） (2023-12-22T16:37:52Z)
StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。 StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文参考訳（メタデータ） (2023-11-28T07:53:51Z)
DCTX-Conformer: Dynamic context carry-over for low latency unified streaming and non-streaming Conformer ASR [20.42366884075422]
本稿では,最先端統合型ASRシステムにおける動的コンテキスト搬送機構の統合を提案する。提案する動的コンテキストコンバータ (DCTX-Conformer) は、重複しないコンテキスト搬送機構を利用する。単語誤り率25.0%でSOTAを上回り、追加のコンテキスト埋め込みによる遅延の影響は無視できる。
論文参考訳（メタデータ） (2023-06-13T23:42:53Z)
Recurrent Attention Networks for Long-text Modeling [14.710722261441822]
本稿では, 自己注意の繰り返し動作を可能にするために, RAN(Recurrent Attention Network) という長文符号化モデルを提案する。 RANはトークンレベルの表現とドキュメントレベルの表現の両方でグローバルなセマンティクスを抽出することができ、シーケンシャルタスクと分類タスクの両方と本質的に互換性がある。
論文参考訳（メタデータ） (2023-06-12T03:28:33Z)
Shifted Chunk Encoder for Transformer Based Streaming End-to-End ASR [7.828989755009444]
E2E ASRをストリーミングするための3つの側面の利点を享受するために、単一のモデルを構築します。我々は、Shifted Chunk Transformer と Conformer をそれぞれ SChunk-Transofromer と SChunk-Conformer と命名した。実験の結果、SChunk-TransformerとSChunk-ConformerはそれぞれCER 6.43%と5.77%を達成した。
論文参考訳（メタデータ） (2022-03-29T03:02:35Z)
Cluster-Former: Clustering-based Sparse Transformer for Long-Range Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-09-13T22:09:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。