Fugu-MT 論文翻訳(概要): Sequentially Sampled Chunk Conformer for Streaming End-to-End ASR

論文の概要: Sequentially Sampled Chunk Conformer for Streaming End-to-End ASR

arxiv url: http://arxiv.org/abs/2211.11419v3
Date: Thu, 22 Jun 2023 09:46:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-23 17:50:54.926315
Title: Sequentially Sampled Chunk Conformer for Streaming End-to-End ASR
Title（参考訳）: ストリーミングエンドツーエンドasrのための逐次サンプリングチャンクコンフォメータ
Authors: Fangyuan Wang, Bo Xu
Abstract要約: 本稿では,E2E(End-to-End)ASRストリーミングのための逐次サンプリング型チャンクコンバータ(SSC-Conformer)を提案する。線形複雑度を維持しながら効率的なクロスチャンク相互作用を可能にする。 LM再構成なしでCER 5.33%でE2E ASRをストリーミングするための最先端性能を実現している。
参考スコア（独自算出の注目度）: 7.828989755009444
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents an in-depth study on a Sequentially Sampled Chunk Conformer, SSC-Conformer, for streaming End-to-End (E2E) ASR. The SSC-Conformer first demonstrates the significant performance gains from using the sequentially sampled chunk-wise multi-head self-attention (SSC-MHSA) in the Conformer encoder by allowing efficient cross-chunk interactions while keeping linear complexities. Furthermore, it explores taking advantage of chunked convolution to make use of the chunk-wise future context and integrates with casual convolution in the convolution layers to further reduce CER. We verify the proposed SSC-Conformer on the AISHELL-1 benchmark and experimental results show that a state-of-the-art performance for streaming E2E ASR is achieved with CER 5.33% without LM rescoring. And, owing to its linear complexity, the SSC-Conformer can train with large batch sizes and infer more efficiently.
Abstract（参考訳）: 本稿では,End-to-End (E2E) ASR ストリーミングのための逐次サンプリング型チャンクコンバータ SSC-Conformer について詳細に検討する。 ssc-conformerは、並列エンコーダにおけるチャンクワイズマルチヘッドセルフアテンション(ssc-mhsa)の逐次サンプリングにより、線形複素性を維持しつつ効率的なクロスチャンク相互作用を実現することにより、大幅な性能向上を実現する。さらに、チャンクド畳み込みを利用してチャンク回りの将来のコンテキストを利用し、畳み込み層のカジュアル畳み込みと統合することで、cerをさらに削減する。提案するssc-conformerをaishell-1ベンチマークで検証し,実験結果から,ストリーミングe2e asrの最先端性能はlmリコーリングを伴わないcer 5.33%で達成できることを確認した。また、線形複雑性のため、SC-Conformerは大きなバッチサイズでトレーニングでき、より効率的に推論できる。

関連論文リスト

Next Tokens Denoising for Speech Synthesis [51.320443764269726]
Dragon-FMは、ARとフローマッチングを統合する新しいテキスト音声(TTS)設計である。毎秒12.5トークンのコンパクトレートで48kHzのオーディオトークンをチャンクで処理する。ポッドキャストデータセットの実験では、高品質なゼロショットポッドキャストを効率的に生成できることが示されている。
論文参考訳（メタデータ） (2025-07-30T15:03:36Z)
CCLSTM: Coupled Convolutional Long-Short Term Memory Network for Occupancy Flow Forecasting [0.0]
textbfCoupled Convolutional LSTM (CTM) を提案する。 CTMは、占有フローのメトリクスに関する最先端のパフォーマンスを達成し、この提出の時点で、2024年のOccupancy and Flow Prediction Challengeのリーダーボード上のすべてのメトリクス(テキスト)にランク付けされている。
論文参考訳（メタデータ） (2025-06-06T14:38:55Z)
Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers [58.98923344096319]
REFORMは、2フェーズアプローチによって、長いコンテキストを効率的に処理する新しい推論フレームワークである。 RULERとBABILongでそれぞれ1Mコンテキスト長で50%以上と27%のパフォーマンス向上を達成した。また、Infinite-BenchとMM-NIAHのベースラインを上回り、さまざまなタスクやドメインの柔軟性を示す。
論文参考訳（メタデータ） (2025-06-01T23:49:14Z)
Training Long-Context LLMs Efficiently via Chunk-wise Optimization [60.05884946552877]
textitSequential Chunk-wise Optimization (SeCO) は、長い入力を管理可能なチャンクに分割するメモリ効率の訓練パラダイムである。 textitSparse Chunk-wise Optimization (SpaCO)を導入し、特定のチャンクへの勾配を選択的に伝播することで計算オーバーヘッドを削減する。 SpaCOは、コンテキスト長からバックプロパゲーションの計算コストを分離し、シーケンスが長くなるにつれて、トレーニング時間が徐々に推論時間に収束することを可能にする。
論文参考訳（メタデータ） (2025-05-22T14:11:34Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文参考訳（メタデータ） (2024-09-04T14:26:58Z)
KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力であるこの研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文参考訳（メタデータ） (2024-07-01T17:59:47Z)
Boundary-aware Decoupled Flow Networks for Realistic Extreme Rescaling [49.215957313126324]
Invertible rescaling Network (IRN) やgenerative adversarial Network (GAN) などを含む最近の生成手法は、画像再スケーリングにおいて例外的な性能を示した。しかし、IRNベースの手法は過度に滑らかな結果を生成する傾向にあり、一方、GANベースの手法は偽の細部を容易に生成する。本稿では,現実的かつ視覚的に満足な結果を生成するために,境界対応デカップリングフローネットワーク(BDFlow)を提案する。
論文参考訳（メタデータ） (2024-05-05T14:05:33Z)
CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning [59.88924847995279]
MTSFのためのクロスモーダルLCMファインチューニング(CALF)フレームワークを提案する。分散の相違を低減するため,クロスモーダルマッチングモジュールを開発した。 CALFは、長期および短期の予測タスクの最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2024-03-12T04:04:38Z)
C2FAR: Coarse-to-Fine Autoregressive Networks for Precise Probabilistic Forecasting [6.046449209642488]
粗大な自己回帰ネットワーク(C2FAR)が提示される。 C2FARは指数関数的に高い精度の値を表す。我々はC2FARを用いて、繰り返しニューラルネットワークによる確率予測を行い、空間と時間の両方で時系列を自動回帰的にモデル化する。
論文参考訳（メタデータ） (2023-12-22T16:37:52Z)
StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。 StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文参考訳（メタデータ） (2023-11-28T07:53:51Z)
DCTX-Conformer: Dynamic context carry-over for low latency unified streaming and non-streaming Conformer ASR [20.42366884075422]
本稿では,最先端統合型ASRシステムにおける動的コンテキスト搬送機構の統合を提案する。提案する動的コンテキストコンバータ (DCTX-Conformer) は、重複しないコンテキスト搬送機構を利用する。単語誤り率25.0%でSOTAを上回り、追加のコンテキスト埋め込みによる遅延の影響は無視できる。
論文参考訳（メタデータ） (2023-06-13T23:42:53Z)
Recurrent Attention Networks for Long-text Modeling [14.710722261441822]
本稿では, 自己注意の繰り返し動作を可能にするために, RAN(Recurrent Attention Network) という長文符号化モデルを提案する。 RANはトークンレベルの表現とドキュメントレベルの表現の両方でグローバルなセマンティクスを抽出することができ、シーケンシャルタスクと分類タスクの両方と本質的に互換性がある。
論文参考訳（メタデータ） (2023-06-12T03:28:33Z)
Shifted Chunk Encoder for Transformer Based Streaming End-to-End ASR [7.828989755009444]
E2E ASRをストリーミングするための3つの側面の利点を享受するために、単一のモデルを構築します。我々は、Shifted Chunk Transformer と Conformer をそれぞれ SChunk-Transofromer と SChunk-Conformer と命名した。実験の結果、SChunk-TransformerとSChunk-ConformerはそれぞれCER 6.43%と5.77%を達成した。
論文参考訳（メタデータ） (2022-03-29T03:02:35Z)
Cluster-Former: Clustering-based Sparse Transformer for Long-Range Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-09-13T22:09:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。