論文の概要: Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization
- arxiv url: http://arxiv.org/abs/2604.19079v1
- Date: Tue, 21 Apr 2026 04:43:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.621056
- Title: Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization
- Title(参考訳): 整合正則化による一元化ASRトランスデューサのオフラインストリーミングギャップ削減
- Authors: Andrei Andrusenko, Vladimir Bataev, Lilit Grigoryan, Nune Tadevosyan, Vitaly Lavrukhin, Boris Ginsburg,
- Abstract要約: 本稿では,単一モデル内でのオフラインおよびストリーミングデコーディングをサポートするRNNTトレーニングのための統一ASRフレームワークを提案する。
実験により、提案手法はオフライン性能を維持しながら低レイテンシでのストリーミング精度を改善し、より大きなモデルサイズにスケーリングし、データセットをトレーニングすることを示した。
- 参考スコア(独自算出の注目度): 35.546900956309294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unification of automatic speech recognition (ASR) systems reduces development and maintenance costs, but training a single model to perform well in both offline and low-latency streaming settings remains challenging. We present a Unified ASR framework for Transducer (RNNT) training that supports both offline and streaming decoding within a single model, using chunk-limited attention with right context and dynamic chunked convolutions. To further close the gap between offline and streaming performance, we introduce an efficient Triton implementation of mode-consistency regularization for RNNT (MCR-RNNT), which encourages agreement across training modes. Experiments show that the proposed approach improves streaming accuracy at low latency while preserving offline performance and scaling to larger model sizes and training datasets. The proposed Unified ASR framework and the English model checkpoint are open-sourced.
- Abstract(参考訳): 自動音声認識(ASR)システムの統合は,開発コストとメンテナンスコストを低減させるが,オフラインおよび低レイテンシのストリーミング設定において,単一モデルのトレーニングは依然として困難である。
本稿では,単一モデル内のオフラインおよびストリーミングデコーディングをサポートするRNNT(Unified ASR framework for Transducer)トレーニングについて,適切なコンテキストと動的チャンク畳み込みを用いたチャンク限定アテンションを用いて述べる。
オフラインとストリーミングのパフォーマンスのギャップを埋めるため、RNNT(MCR-RNNT)のモード整合性正規化を効率よく実装し、トレーニングモード間の合意を促進する。
実験により、提案手法はオフライン性能を維持しながら低レイテンシでのストリーミング精度を改善し、より大きなモデルサイズにスケーリングし、データセットをトレーニングすることを示した。
提案されているUnified ASRフレームワークと英語モデルチェックポイントはオープンソースである。
関連論文リスト
- Accelerating Structured Chain-of-Thought in Autonomous Vehicles [55.78214218065611]
チェーン・オブ・ソート(CoT)推論は、自律運転における視覚言語行動モデルの意思決定能力を高める。
FastDriveCoTはテンプレート構造CoTを高速化する新しい並列復号法である。
論文 参考訳(メタデータ) (2026-02-02T22:14:26Z) - Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - Real-Time Inference for Distributed Multimodal Systems under Communication Delay Uncertainty [37.15356899831919]
接続されたサイバー物理システムは、複数のデータストリームからのリアルタイム入力に基づいて推論を行う。
本稿では,適応時間窓を用いたニューラルインスパイアされたノンブロッキング推論パラダイムを提案する。
我々のフレームワークは、精度-遅延トレードオフをきめ細かな制御で堅牢なリアルタイム推論を実現する。
論文 参考訳(メタデータ) (2025-11-20T10:48:54Z) - BADiff: Bandwidth Adaptive Diffusion Model [55.10134744772338]
従来の拡散モデルは、下流の伝送制限によらず、一定数のデノナイジングステップを実行することで、高忠実度画像を生成する。
実際のクラウド・ツー・デバイス・シナリオでは、帯域幅の制限はしばしば重い圧縮を必要とし、微妙なテクスチャや無駄な計算が失われる。
使用可能な帯域幅から導かれる目標品質レベルに拡散モデルを条件付けする,共同エンドツーエンドのトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2025-10-24T11:50:03Z) - Unifying Streaming and Non-streaming Zipformer-based ASR [14.226219579716629]
本稿では,ストリーミングアプリケーションと非ストリーミングアプリケーションの両方に対して,単一エンドツーエンドのASRモデルをトレーニングする統合フレームワークを提案する。
本稿では,zipformer を用いた ASR モデルのトレーニングにおいて,チャンクされた注目マスキングによる動的右コンテキストの利用を提案する。
ストリーミングASRモデルの精度と待ち時間に及ぼす右コンテキストフレーム数の変化の影響を解析する。
論文 参考訳(メタデータ) (2025-06-17T11:52:41Z) - HENT-SRT: Hierarchical Efficient Neural Transducer with Self-Distillation for Joint Speech Recognition and Translation [19.997594859651233]
HENT-SRTは、ASRと翻訳タスクを分解して、再注文の処理を改善する新しいフレームワークである。
ASRトランスデューサのベストプラクティスを取り入れて計算効率を向上させる。
提案手法は,アラビア語,スペイン語,マンダリンの3つの会話データセットを用いて評価した。
論文 参考訳(メタデータ) (2025-06-02T18:37:50Z) - DCTX-Conformer: Dynamic context carry-over for low latency unified
streaming and non-streaming Conformer ASR [20.42366884075422]
本稿では,最先端統合型ASRシステムにおける動的コンテキスト搬送機構の統合を提案する。
提案する動的コンテキストコンバータ (DCTX-Conformer) は、重複しないコンテキスト搬送機構を利用する。
単語誤り率25.0%でSOTAを上回り、追加のコンテキスト埋め込みによる遅延の影響は無視できる。
論文 参考訳(メタデータ) (2023-06-13T23:42:53Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator
Search [55.164053971213576]
畳み込みニューラルネットワークは,計算オーバーヘッドが大きいにもかかわらず,コンピュータビジョンタスクの実行において大きな成功を収めている。
構造的(チャネル)プルーニングは、通常、ネットワーク構造を保ちながらモデルの冗長性を低減するために適用される。
既存の構造化プルーニング法では、手作りのルールが必要であり、これは大きなプルーニング空間に繋がる可能性がある。
論文 参考訳(メタデータ) (2020-11-04T07:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。