Fugu-MT 論文翻訳(概要): Breaking Through the Spike: Spike Window Decoding for Accelerated and Precise Automatic Speech Recognition

論文の概要: Breaking Through the Spike: Spike Window Decoding for Accelerated and Precise Automatic Speech Recognition

arxiv url: http://arxiv.org/abs/2501.03257v1
Date: Wed, 01 Jan 2025 12:20:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-08 16:58:02.829055
Title: Breaking Through the Spike: Spike Window Decoding for Accelerated and Precise Automatic Speech Recognition
Title（参考訳）: スパイクを破る: 高速かつ高精度な音声認識のためのスパイクウィンドウデコード
Authors: Wei Zhang, Tian-Hao Zhang, Chao Luo, Hui Zhou, Chao Yang, Xinyuan Qian, Xu-Cheng Yin,
Abstract要約: Spike Window Decodingアルゴリズムは、WFSTでデコードされたフレームの数をCTC出力のスパイクフレームの数と線形に関連付けることにより、推論速度を大幅に改善する。提案手法は,AISHELL-1と大規模In-Houseデータセットの両方で証明された復号速度を大幅に向上させ,SOTA認識精度を実現する。
参考スコア（独自算出の注目度）: 26.665132884613477
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, end-to-end automatic speech recognition has become the mainstream approach in both industry and academia. To optimize system performance in specific scenarios, the Weighted Finite-State Transducer (WFST) is extensively used to integrate acoustic and language models, leveraging its capacity to implicitly fuse language models within static graphs, thereby ensuring robust recognition while also facilitating rapid error correction. However, WFST necessitates a frame-by-frame search of CTC posterior probabilities through autoregression, which significantly hampers inference speed. In this work, we thoroughly investigate the spike property of CTC outputs and further propose the conjecture that adjacent frames to non-blank spikes carry semantic information beneficial to the model. Building on this, we propose the Spike Window Decoding algorithm, which greatly improves the inference speed by making the number of frames decoded in WFST linearly related to the number of spiking frames in the CTC output, while guaranteeing the recognition performance. Our method achieves SOTA recognition accuracy with significantly accelerates decoding speed, proven across both AISHELL-1 and large-scale In-House datasets, establishing a pioneering approach for integrating CTC output with WFST.
Abstract（参考訳）: 近年,エンド・ツー・エンドの自動音声認識が産学両分野において主流となっている。特定のシナリオにおけるシステム性能を最適化するために、WFST(Weighted Finite-State Transducer)は、アコースティックモデルと言語モデルの統合に広く使用され、その能力を活用して静的グラフ内で言語モデルを暗黙的に融合させ、ロバストな認識を確保しながら、迅速なエラー修正を容易にする。しかし、WFSTは自己回帰によってCTC後部確率をフレーム単位で探索する必要があるため、推論速度は著しく低下する。本研究では,CTC出力のスパイク特性を徹底的に検討し,非ブランクスパイクに隣接するフレームがセマンティック情報をもたらすという予想を提案する。そこで我々は,CTC出力におけるスパイクフレーム数に線形に関連付けるWFSTでデコードされたフレーム数を認識性能を保証し,推論速度を大幅に向上するSpike Window Decodingアルゴリズムを提案する。提案手法は,AISHELL-1と大規模In-Houseデータセットの両方で証明された復号化速度を大幅に向上させ,CTC出力をWFSTと統合するための先駆的なアプローチを確立する。

関連論文リスト

Large-Scale Model Enabled Semantic Communication Based on Robust Knowledge Distillation [53.16213723669751]
大規模モデル(LSM)は意味表現と理解に有効なフレームワークである。しかしながら、それらの直接的なデプロイメントは、しばしば高い計算複雑性とリソース要求によって妨げられる。本稿では,新しい知識蒸留に基づくセマンティックコミュニケーションフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-04T07:47:18Z)
R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。 CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge [60.000984252907195]
自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-17T05:00:39Z)
PCA-Featured Transformer for Jamming Detection in 5G UAV Networks [0.5999777817331317]
無人航空機(UAV)は、ネットワーク機能を損なう可能性のある攻撃を妨害することによる重大なセキュリティリスクに直面している。従来の検出方法は、動作を動的に変更するAI駆動のジャミングに直面すると、しばしば不足する。無線セキュリティ向上のための特徴表現を洗練するための新しいU字型トランスフォーマーアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-12-19T16:13:04Z)
Key Frame Mechanism For Efficient Conformer Based End-to-end Speech Recognition [9.803556181225193]
エンドツーエンドの自動音声認識のためのバックボーンネットワークとしてのコンフォーマーは、最先端の性能を達成した。しかし、Conformerベースのモデルは、自己認識メカニズムの問題に直面している。キーフレームを用いた自己注意機構の計算量を削減する新しい手法であるキーフレームベースの自己注意機構(KFSA)を導入する。
論文参考訳（メタデータ） (2023-10-23T13:55:49Z)
Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。 WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文参考訳（メタデータ） (2023-09-07T06:41:15Z)
Spatiotemporal Attention-based Semantic Compression for Real-time Video Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文参考訳（メタデータ） (2023-05-22T07:47:27Z)
An Investigation of Enhancing CTC Model for Triggered Attention-based Streaming ASR [19.668440671541546]
Mask-CTCとトリガアテンション機構を組み合わせることで、ストリーミングエンドツーエンド自動音声認識(ASR)システムを構築する。提案手法は従来のトリガアテンションベースのストリーミングASRシステムよりも低レイテンシで高い精度を実現する。
論文参考訳（メタデータ） (2021-10-20T06:44:58Z)
Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文参考訳（メタデータ） (2021-09-27T05:21:30Z)
WNARS: WFST based Non-autoregressive Streaming End-to-End Speech Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。 AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文参考訳（メタデータ） (2021-04-08T07:56:03Z)
Alignment Knowledge Distillation for Online Streaming Attention-based Speech Recognition [46.69852287267763]
本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。提案手法は認識エラーとエミッション遅延を同時に低減する。最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。
論文参考訳（メタデータ） (2021-02-28T08:17:38Z)
Improved Mask-CTC for Non-Autoregressive End-to-End ASR [49.192579824582694]
マスク予測とコネクショナリズム時間分類(CTC)に基づく最近提案されたエンドツーエンドASRシステム我々は、最近提案されたConformerアーキテクチャを用いて、ネットワークアーキテクチャを強化することを提案する。次に、部分的ターゲットシーケンスの長さを予測する補助的目的を導入することによって、新しいトレーニングと復号化手法を提案する。
論文参考訳（メタデータ） (2020-10-26T01:22:35Z)
Boosting Continuous Sign Language Recognition via Cross Modality Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。クロスモーダル拡張を用いた新しいアーキテクチャを提案する。提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文参考訳（メタデータ） (2020-10-11T15:07:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。