論文の概要: Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2603.11123v1
- Date: Wed, 11 Mar 2026 14:24:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.528826
- Title: Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming Automatic Speech Recognition
- Title(参考訳): Uni-ASR:非ストリーミング・ストリーミング音声認識のための統一LLMアーキテクチャ
- Authors: Yinfeng Xia, Jian Tang, Junfeng Hou, Gaopeng Xu, Haitao Yao,
- Abstract要約: 非ストリーミング音声認識機能とストリーミング音声認識機能を統合した統合フレームワークUni-ASRを提案する。
我々は、追加のレイテンシを導入することなく、ストリーミング認識精度を向上させることができる、コンテキスト対応トレーニングパラダイムと、共同設計のフォールバックデコーディング戦略を導入する。
- 参考スコア(独自算出の注目度): 12.132900855970334
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although the deep integration of the Automatic Speech Recognition (ASR) system with Large Language Models (LLMs) has significantly improved accuracy, the deployment of such systems in low-latency streaming scenarios remains challenging. In this paper, we propose Uni-ASR, a unified framework based on LLMs that integrates both non-streaming and streaming speech recognition capabilities. We propose a joint training paradigm that enables the system to seamlessly transition between two recognition modes without any architectural modifications. Furthermore, we introduce a context-aware training paradigm and a co-designed fallback decoding strategy, which can enhance streaming recognition accuracy without introducing additional latency. The experimental results demonstrate that Uni-ASR not only achieves competitive performance within non-streaming mode, but also demonstrates strong effectiveness in streaming scenarios under diverse latency constraints.
- Abstract(参考訳): 音声認識システム(ASR)とLarge Language Models(LLM)との深い統合は精度を大幅に向上させたが、低遅延ストリーミングシナリオにおけるそのようなシステムの展開は依然として困難である。
本稿では,LLMをベースとした統合フレームワークUni-ASRを提案する。
本研究では,2つの認識モード間のシームレスな遷移を可能にする共同学習パラダイムを提案する。
さらに、追加のレイテンシを導入することなく、ストリーミング認識精度を向上させることができる、コンテキスト対応トレーニングパラダイムと、共設計のフォールバックデコーディング戦略を導入する。
実験結果から,Uni-ASRは非ストリーミングモードでの競合性能を達成するだけでなく,様々な遅延制約下でのストリーミングシナリオにおいて高い効果を示すことがわかった。
関連論文リスト
- Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models [34.15708407614003]
大規模言語モデル(LLM)は、最近、複数のモーダルをまたいだ音声認識において、印象的な成果を上げている。
Omni-AVSRは,マルチグラニュラリティ学習とパラメータ効率の両立を両立した統合型音声視覚LLMである。
LRS2 と LRS3 の実験では、Omni-AVSR は最先端のベースラインと同等または優れた精度で達成されている。
論文 参考訳(メタデータ) (2025-11-10T16:03:44Z) - Index-MSR: A high-efficiency multimodal fusion framework for speech recognition [7.677016652056559]
Index-MSRは効率的なマルチモーダル音声認識フレームワークである。
MFDは、ビデオからのテキスト関連情報を音声認識に効果的に組み込む。
Index-MSR はソータ精度を実現し,置換誤差を 2050% 削減した。
論文 参考訳(メタデータ) (2025-09-26T03:47:15Z) - Fun-ASR Technical Report [89.84148151617022]
本稿では,大規模データ,大規模モデル容量,LLM統合,強化学習を組み合わせた大規模ALSシステムFun-ASRを提案する。
Fun-ASRは特に実用的なデプロイメントに最適化されており、ストリーミング機能、ノイズの堅牢性、コードスイッチング、ホットワードのカスタマイズ、その他の現実世界のアプリケーション要件を満たすことができる。
運用指向の最適化により、Fun-ASRは実際のアプリケーションデータセット上での最先端のパフォーマンスを実現し、実用的設定におけるその有効性と堅牢性を示す。
論文 参考訳(メタデータ) (2025-09-15T23:19:36Z) - Dynamic Context-Aware Streaming Pretrained Language Model For Inverse Text Normalization [0.19791587637442667]
逆テキスト正規化(ITN)は、音声自動音声認識(ASR)出力を十分に整形されたテキストに変換するために重要である。
我々はITNのためのストリーミング事前学習言語モデルを導入し、頑健性を向上させるために事前学習言語表現を活用する。
提案手法は,非ストリーミングITNに匹敵する精度を達成し,ベトナムのデータセット上で既存のストリーミングITNモデルを上回る精度を実現する。
論文 参考訳(メタデータ) (2025-05-30T05:41:03Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - DCTX-Conformer: Dynamic context carry-over for low latency unified
streaming and non-streaming Conformer ASR [20.42366884075422]
本稿では,最先端統合型ASRシステムにおける動的コンテキスト搬送機構の統合を提案する。
提案する動的コンテキストコンバータ (DCTX-Conformer) は、重複しないコンテキスト搬送機構を利用する。
単語誤り率25.0%でSOTAを上回り、追加のコンテキスト埋め込みによる遅延の影響は無視できる。
論文 参考訳(メタデータ) (2023-06-13T23:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。