論文の概要: Model-free Speculative Decoding for Transformer-based ASR with Token Map Drafting
- arxiv url: http://arxiv.org/abs/2507.21522v1
- Date: Tue, 29 Jul 2025 06:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.756754
- Title: Model-free Speculative Decoding for Transformer-based ASR with Token Map Drafting
- Title(参考訳): Token Map Drafting を用いたトランスフォーマーベース ASR のモデルフリー投機デコード
- Authors: Tuan Vu Ho, Hiroaki Kokubo, Masaaki Yamamoto, Yohei Kawaguchi,
- Abstract要約: 本稿では,独立したドラフトモデルを必要としないモデルフリーSD技術であるemphToken Map Draftingを提案する。
本手法は, 転写精度を犠牲にすることなく, 構造的, 低パープレキシティ領域におけるASRの推論を著しく高速化する。
- 参考スコア(独自算出の注目度): 5.976028696804381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end automatic speech recognition (ASR) systems based on transformer architectures, such as Whisper, offer high transcription accuracy and robustness. However, their autoregressive decoding is computationally expensive, hence limiting deployment on CPU-based and resource-constrained devices. Speculative decoding (SD) mitigates this issue by using a smaller draft model to propose candidate tokens, which are then verified by the main model. However, this approach is impractical for devices lacking hardware accelerators like GPUs. To address this, we propose \emph{Token Map Drafting}, a model-free SD technique that eliminates the need for a separate draft model. Instead, we leverage a precomputed n-gram token map derived from domain-specific training data, enabling efficient speculative decoding with minimal overhead. Our method significantly accelerates ASR inference in structured, low-perplexity domains without sacrificing transcription accuracy. Experimental results demonstrate decoding speed-ups of $1.27\times$ on the CI-AVSR dataset and $1.37\times$ on our internal dataset without degrading recognition accuracy. Additionally, our approach achieves a $10\%$ absolute improvement in decoding speed over the Distill-spec baseline running on CPU, highlighting its effectiveness for on-device ASR applications.
- Abstract(参考訳): Whisperのようなトランスフォーマーアーキテクチャに基づくエンドツーエンドの自動音声認識(ASR)システムは、高い転写精度と堅牢性を提供する。
しかし、自動回帰復号化は計算コストがかかるため、CPUベースやリソース制約のあるデバイスへの展開が制限される。
投機的復号(SD)は、より小さなドラフトモデルを使用して候補トークンを提案することでこの問題を軽減し、メインモデルによって検証される。
しかし、このアプローチはGPUのようなハードウェアアクセラレーターを欠いているデバイスには実用的ではない。
これを解決するために,モデルフリーのSD技術である \emph{Token Map Drafting} を提案する。
代わりに、ドメイン固有のトレーニングデータから事前に計算したn-gramトークンマップを活用し、最小限のオーバーヘッドで効率的な投機的復号を可能にする。
本手法は, 転写精度を犠牲にすることなく, 構造化低コンプレックス領域におけるASR推論を著しく高速化する。
実験結果は、CI-AVSRデータセットで1.27\times$、内部データセットで1.37\times$のデコード速度を、認識精度を劣化させることなく示す。
さらに本手法では,CPU上で動作するDistill-specベースライン上でのデコード速度の絶対的向上を実現し,デバイス上でのASRアプリケーションの有効性を強調した。
関連論文リスト
- SLED: A Speculative LLM Decoding Framework for Efficient Edge Serving [7.91607650966469]
acronymは、軽量エッジデバイスが様々なドラフトモデルを使用して、複数の候補トークンをローカルにドラフトできるフレームワークである。
単一の共有エッジサーバは、より正確なターゲットモデルを用いてトークンを検証する。
Jetson Orin Nano、Raspberry Pi 4B/5、Nvidia A100 GPUを搭載したエッジサーバを使った最初の実験は、大きなメリットを示している。
論文 参考訳(メタデータ) (2025-06-11T04:55:54Z) - LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation [23.51191930926061]
本稿では,ASRエンコーダの低ランク圧縮方式であるLiteASRを導入する。
評価の結果,Whisperの大容量v3エンコーダサイズを50%以上圧縮し,Whisper媒体サイズと転写精度を比較検討した。
論文 参考訳(メタデータ) (2025-02-27T22:52:21Z) - SpecHub: Provable Acceleration to Multi-Draft Speculative Decoding [28.76164449548306]
MDSD(Multi-Draft Speculative Decoding)は、より小さなドラフトモデルを用いて複数のトークンシーケンスを生成することで、有望なソリューションを提供する。
線形計算オーバーヘッドのみで受け入れ率を向上するMDSDの新しい,効率的なサンプリング検証手法であるSpecHubを提案する。
論文 参考訳(メタデータ) (2024-11-08T02:47:07Z) - Accurate, Low-latency, Efficient SAR Automatic Target Recognition on
FPGA [3.251765107970636]
合成開口レーダ(SAR)自動目標認識(ATR)はリモートセンシング画像認識の鍵となる技術である。
SAR ATRのための最先端の畳み込みニューラルネットワーク(CNN)は、エンハンハイ計算コストとエンハンラージメモリフットプリントに悩まされている。
本稿では,これらの問題に対処するため,FPGA 上でモデルアーキテクチャを包括的に設計する手法を提案する。
論文 参考訳(メタデータ) (2023-01-04T05:35:30Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。