論文の概要: NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR
- arxiv url: http://arxiv.org/abs/2604.18105v1
- Date: Mon, 20 Apr 2026 11:21:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.830893
- Title: NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR
- Title(参考訳): NIM4-ASR: 効率的でロバストでカスタマイズ可能なリアルタイムLLMベースASRを目指して
- Authors: Yuan Xie, Jiaqi Song, Guang Qiu, Xianliang Wang, Kai Qiao, Junfeng Yuan, Shengqing Liu, Yi Zhang, Bowen Chen, Ming Lei, Jie Gao, Jie Wu,
- Abstract要約: 我々は、効率性とロバスト性の両方に最適化された生産指向LLMベースのASRフレームワークであるNIM4-ASRを提案する。
トレーニング前アーキテクチャと目的を再構築し、モダリティギャップを緩和し、パラメータ効率を向上させる。
さらに、ノイズやサイレントな条件下での堅牢性を含む、生産指向の最適化スイートも組み込んでいます。
- 参考スコア(独自算出の注目度): 22.527587147157462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating large language models (LLMs) into automatic speech recognition (ASR) has become a mainstream paradigm in recent years. Although existing LLM-based ASR models demonstrate impressive performance on public benchmarks, their training remains predominantly data-driven, leaving key practical challenges insufficiently addressed -- particularly limited downward scalability in resource-constrained deployments and hallucinations under acoustically challenging conditions. To address these issues, we present NIM4-ASR, a production-oriented LLM-based ASR framework optimized for both efficiency and robustness. Grounded in a principled delineation of functional roles between the encoder and the LLM, we redesign the multi-stage training paradigm to align each module with its intended capability boundary. Specifically, we reformulate the pre-training architecture and objective to mitigate the modality gap and improve parameter efficiency; introduce an iterative asynchronous SFT stage to preserve acoustic fidelity and constrain representation drift; and design an ASR-specialized reinforcement learning stage to further enhance recognition quality and robustness. We additionally incorporate a suite of production-oriented optimizations, including robustness under noisy and silent conditions, real-time streaming inference, and hotword customization via retrieval-augmented generation (RAG). Experiments show that NIM4-ASR achieves state-of-the-art performance on multiple public benchmarks with merely 2.3B parameters, while substantially outperforming larger-scale competitors on internal benchmarks -- particularly in entity-intensive real-world scenarios. NIM4-ASR further supports million-scale hotword customization via RAG with sub-millisecond retrieval latency, enabling efficient adaptation to emerging entities and personalized user requirements.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) を自動音声認識 (ASR) に統合することが主流となっている。
既存のLLMベースのASRモデルは、公開ベンチマークで素晴らしいパフォーマンスを示しているが、トレーニングは主にデータ駆動であり、特にリソース制約されたデプロイメントにおける下向きのスケーラビリティや、音響的に困難な条件下での幻覚といった、主要な現実的な課題に対処するには不十分なままである。
これらの課題に対処するため,本研究では,効率性とロバスト性の両方に最適化された生産指向LLMベースのASRフレームワークであるNIM4-ASRを提案する。
エンコーダとLLMの機能的役割の原則的記述に基づいて,各モジュールを意図した能力境界に整合させるため,多段階トレーニングパラダイムを再設計する。
具体的には、モーダルギャップを緩和し、パラメータ効率を向上させるための事前学習アーキテクチャと目的を再構築し、音響忠実度と制約表現のドリフトを維持するための反復非同期SFTステージを導入し、音声認識品質とロバスト性を高めるためにASR特化強化学習ステージを設計する。
さらに、ノイズやサイレント条件下での堅牢性、リアルタイムストリーミング推論、検索拡張生成(RAG)によるホットワードのカスタマイズなど、生産指向の最適化のスイートも組み込んだ。
実験によると、NIM4-ASRは2.3Bパラメータのみを持つ複数の公開ベンチマークで最先端のパフォーマンスを達成し、特にエンティティ集約の現実のシナリオにおいて、内部ベンチマークでの大規模ライバルよりも大幅に上回っている。
NIM4-ASRはさらに、100ミリ秒以下の検索レイテンシでRAGによる百万単位のホットワードのカスタマイズをサポートし、新興エンティティとパーソナライズされたユーザ要求への効率的な適応を可能にする。
関連論文リスト
- Rethinking Entropy Allocation in LLM-based ASR: Understanding the Dynamics between Speech Encoders and LLMs [17.167595029948576]
学習パラダイムが音声エンコーダとLLM間のエントロピー削減をどのように割り当てるかを特徴付けるための3つの指標を提案する。
本稿では,パラメータ効率とロバストネス幻覚を最適化した,能力境界認識に基づく多段階学習戦略を提案する。
マンダリンと英語のベンチマーク実験により,2.3Bパラメータのみを用いた最先端モデルとの競合性能が得られた。
論文 参考訳(メタデータ) (2026-04-09T09:07:52Z) - AsynDBT: Asynchronous Distributed Bilevel Tuning for efficient In-Context Learning with Large Language Models [4.4866154758274375]
In-context Learning (ICL) は、LLMが入力内で提供される例を使って新しいタスクに適応できる有望なパラダイムとして登場した。
ICLを組み込んだ以前のFLアプローチは、重度のストラグラー問題と、異種非同一データに関連する課題に悩まされてきた。
本稿では,LLMからのフィードバックに基づいて,文脈内学習サンプルの最適化とフラグメントのプロンプトを行う非同期分散バイレベルチューニング(AsynDBT)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-02-06T13:07:49Z) - Fun-ASR Technical Report [89.84148151617022]
本稿では,大規模データ,大規模モデル容量,LLM統合,強化学習を組み合わせた大規模ALSシステムFun-ASRを提案する。
Fun-ASRは特に実用的なデプロイメントに最適化されており、ストリーミング機能、ノイズの堅牢性、コードスイッチング、ホットワードのカスタマイズ、その他の現実世界のアプリケーション要件を満たすことができる。
運用指向の最適化により、Fun-ASRは実際のアプリケーションデータセット上での最先端のパフォーマンスを実現し、実用的設定におけるその有効性と堅牢性を示す。
論文 参考訳(メタデータ) (2025-09-15T23:19:36Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。