論文の概要: CarelessWhisper: Turning Whisper into a Causal Streaming Model
- arxiv url: http://arxiv.org/abs/2508.12301v1
- Date: Sun, 17 Aug 2025 09:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.674473
- Title: CarelessWhisper: Turning Whisper into a Causal Streaming Model
- Title(参考訳): CarelessWhisper:WhisperをCausal Streaming Modelに変える
- Authors: Tomer Krichli, Bhiksha Raj, Joseph Keshet,
- Abstract要約: 本稿では,エンコーダ・デコーダ変換器を低遅延ストリーミングモデルに変換することが簡単でない理由を説明する。
提案手法は,既存の(非因果的)エンコーダを,エンコーダとデコーダの両方を微調整することによって因果的エンコーダに修正する。
低レイテンシチャンクサイズ(300msec未満)の実験では、我々の微調整されたモデルが既存の非微調整のストリーミングアプローチより優れていることが示されている。
- 参考スコア(独自算出の注目度): 31.38962687054824
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic Speech Recognition (ASR) has seen remarkable progress, with models like OpenAI Whisper and NVIDIA Canary achieving state-of-the-art (SOTA) performance in offline transcription. However, these models are not designed for streaming (online or real-time) transcription, due to limitations in their architecture and training methodology. We propose a method to turn the transformer encoder-decoder model into a low-latency streaming model that is careless about future context. We present an analysis explaining why it is not straightforward to convert an encoder-decoder transformer to a low-latency streaming model. Our proposed method modifies the existing (non-causal) encoder to a causal encoder by fine-tuning both the encoder and decoder using Low-Rank Adaptation (LoRA) and a weakly aligned dataset. We then propose an updated inference mechanism that utilizes the fine-tune causal encoder and decoder to yield greedy and beam-search decoding, and is shown to be locally optimal. Experiments on low-latency chunk sizes (less than 300 msec) show that our fine-tuned model outperforms existing non-fine-tuned streaming approaches in most cases, while using a lower complexity. Additionally, we observe that our training process yields better alignment, enabling a simple method for extracting word-level timestamps. We release our training and inference code, along with the fine-tuned models, to support further research and development in streaming ASR.
- Abstract(参考訳): 自動音声認識(ASR)は、OpenAI WhisperやNVIDIA Canaryといったモデルが、オフラインの転写でSOTA(State-of-the-art)のパフォーマンスを達成するなど、目覚ましい進歩を遂げている。
しかしながら、これらのモデルは、アーキテクチャやトレーニング手法に制限があるため、ストリーミング(オンラインまたはリアルタイム)の書き起こしのために設計されていない。
本稿では,変換器エンコーダ・デコーダモデルを,将来の状況に不注意な低遅延ストリーミングモデルに変換する手法を提案する。
本稿では,エンコーダ・デコーダ変換器を低遅延ストリーミングモデルに変換することが簡単でない理由を説明する。
提案手法は,Low-Rank Adaptation (LoRA) と弱整列データセットを用いて,エンコーダとデコーダの両方を微調整することにより,既存の(非因果)エンコーダを因果エンコーダに修正する。
次に、細管因果エンコーダとデコーダを用いて、グレディおよびビーム探索デコーダを出力し、局所的に最適であることを示す新しい推論機構を提案する。
低レイテンシのチャンクサイズ(300msec未満)の実験では、我々の微調整されたモデルは、ほとんどの場合において、より低い複雑さを使用しながら、既存の非微調整のストリーミングアプローチより優れています。
さらに,学習プロセスのアライメントが向上し,単語レベルのタイムスタンプを抽出する簡単な方法が可能であることも確認した。
ストリーミングASRにおけるさらなる研究と開発を支援するため、トレーニングコードと推論コード、微調整されたモデルをリリースする。
関連論文リスト
- Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。
我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。
CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文 参考訳(メタデータ) (2023-12-27T21:04:26Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - Streaming Align-Refine for Non-autoregressive Deliberation [42.748839817396046]
本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。
提案アルゴリズムは,単純なグリーディ復号処理を容易にし,同時に各フレームにおける復号結果を,限られた適切なコンテキストで生成することができる。
音声検索データセットとLibrispeechの実験は、合理的な適切なコンテキストで、ストリーミングモデルがオフラインと同等に動作していることを示しています。
論文 参考訳(メタデータ) (2022-04-15T17:24:39Z) - Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech
Recognition [19.971343876930767]
ストリーミングと非ストリーミングエンドツーエンド(E2E)音声認識を1つのモデルで統一する,新たな2パス方式を提案する。
本モデルでは,エンコーダのコンフォメータ層を改良したハイブリッドCTC/アテンションアーキテクチャを採用している。
オープンな170時間AISHELL-1データセットの実験により、提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統一できることを示した。
論文 参考訳(メタデータ) (2020-12-10T06:54:54Z) - Cascaded encoders for unifying streaming and non-streaming ASR [68.62941009369125]
この研究は、両方のモードで同時に動作可能な単一のE2E ASRモデルを構築するためのカスケードエンコーダを提示する。
シングルデコーダは、ストリーミングの出力または非ストリーミングエンコーダを使用してデコーダを学習する。
その結果,このモデルはストリーミングモードで動作する場合,スタンドアロンのストリーミングモデルと同様のワードエラー率(WER)を実現し,非ストリーミングモードで動作する場合,10%~27%の相対的改善が得られた。
論文 参考訳(メタデータ) (2020-10-27T20:59:50Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。