論文の概要: FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms
- arxiv url: http://arxiv.org/abs/2510.09085v1
- Date: Fri, 10 Oct 2025 07:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.311272
- Title: FLToP CTC: Frame-Level Token Pruning via Relative Threshold for Efficient and Memory-Saving Decoding on Diverse Platforms
- Title(参考訳): FLToP CTC: 複数プラットフォーム上での高効率・省メモリデコーディングのための相対閾値によるフレームレベルトケンプルーニング
- Authors: Atul Shree, Harshith Jupuru,
- Abstract要約: CTCベースのASRシステムは、リソース制限された環境で計算とメモリのボトルネックに直面している。
本稿では,コネクショナリズム時間分類(FLToP CTC)のためのフレームレベルトケンプルーニングを提案する。
FLToP CTCは、無視可能なWER劣化を維持しながら、計算とメモリの要求を減らす。
- 参考スコア(独自算出の注目度): 1.518298096221251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CTC-based ASR systems face computational and memory bottlenecks in resource-limited environments. Traditional CTC decoders, requiring up to 90% of processing time in systems (e.g., wav2vec2-large on L4 GPUs), face inefficiencies due to exhaustive token-level operations. This paper introduces Frame Level Token Pruning for Connectionist Temporal Classification (FLToP CTC), a novel decoding algorithm that employs frame-level token pruning guided by a relative threshold probability. By dynamically eliminating low-probability tokens per frame, FLToP CTC reduces compute and memory demands while maintaining negligible WER degradation. On LibriSpeech, FLToP CTC achieves a 10.5x runtime speedup and 2.78x memory reduction versus standard CTC decoders. Its simplicity enables seamless integration into CTC decoders across platforms (CPUs, GPUs, etc.). FLToP CTC addresses CTC bottlenecks, offering scalability for resource-limited environments and realtime applications, enhancing speech recognition accessibility and efficiency.
- Abstract(参考訳): CTCベースのASRシステムは、リソース制限された環境で計算とメモリのボトルネックに直面している。
従来のCTCデコーダでは、システム内の処理時間の最大90%(例えば、L4 GPU上ではwav2vec2-large)を必要とするが、トークンレベルの操作によって非効率に直面している。
本稿では,フレームレベルのトークンプルーニングを相対しきい値確率で導出する新しい復号アルゴリズムFLToP CTCを提案する。
フレーム当たりの低確率トークンを動的に排除することにより、FLToP CTCは、無視可能なWER劣化を維持しながら、計算とメモリ要求を削減できる。
LibriSpeechでは、FLToP CTCは10.5倍のランタイム高速化と2.78倍のメモリ削減を実現している。
そのシンプルさにより、プラットフォーム(CPU、GPUなど)間のCTCデコーダへのシームレスな統合が可能になる。
FLToP CTCはCTCボトルネックに対処し、リソース制限された環境とリアルタイムアプリケーションのためのスケーラビリティを提供し、音声認識のアクセシビリティと効率を向上させる。
関連論文リスト
- Silentflow: Leveraging Trusted Execution for Resource-Limited MPC via Hardware-Algorithm Co-design [6.998260344481881]
我々はCOT生成における通信を排除するプロトコルであるSilentflowを紹介する。
エンドツーエンドのレイテンシとリソース要求のバランスをとり、最先端のプロトコルよりも39.51倍のスピードアップを実現しています。
論文 参考訳(メタデータ) (2025-08-18T21:00:10Z) - Towards Practical Real-Time Neural Video Compression [60.390180067626396]
我々は,高圧縮比,低レイテンシ,広範汎用性を実現するために設計された実用的リアルタイムニューラルビデオ(NVC)を紹介する。
実験により,提案したDCVC-RTは1080pビデオに対して125.2/112.8フレーム(毎秒125.2/112.8フレーム)の高速符号化を実現し,H.266/VTMと比較して21%のfpsを節約できた。
論文 参考訳(メタデータ) (2025-02-28T06:32:23Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - FDC: Fast KV Dimensionality Compression for Efficient LLM Inference [11.194752361478567]
FDCは、既存のKV次元圧縮システムであるPaluで発生する減圧オーバーヘッドを排除し、注意時間を短縮する高速なKV次元圧縮システムである。
実験では、FDCはジョブ完了時間(JCT)を最大64%削減し、同じレイテンシで最大1.97倍のスループットを提供する。
最先端の消去法と量子化法がFDCと組み合わせられた場合、Paluと組み合わせた方法と同じような改善がなされる。
論文 参考訳(メタデータ) (2024-08-07T22:10:26Z) - GPU-Accelerated WFST Beam Search Decoder for CTC-based Speech
Recognition [1.2680687621338012]
Connectionist Temporal Classification (CTC)モデルは、自動音声認識(ASR)パイプラインにおいて最先端の精度を提供する。
我々は、現在のCTCモデルと互換性のある、GPU駆動の重み付き有限状態トランスデューサ(WFST)ビームデコーダを導入する。
パイプラインのスループットを向上し、レイテンシを低減し、ストリーミング推論をサポートし、オンザフライ合成による発話固有の単語ブースティングなどの高度な機能をサポートする。
論文 参考訳(メタデータ) (2023-11-08T19:57:10Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - CTC Variations Through New WFST Topologies [79.94035631317395]
本稿では,コネクショニスト時相分類(CTC)のような自動音声認識アルゴリズムを実装するために,WFST(Weighted Finite-State Transducer)トポロジを提案する。
1)ユニット間の直接遷移をepsilon>バックオフ遷移に置き換える"compact-CTC"、(2)WFSTコンポジションで使用する際に空白>自己ループのみを追加する"minimal-CTC"、(3)非ブランクユニットの自己ループを許可する"selfless-CTC"の3つの新しいCTC変種が提案されている。
論文 参考訳(メタデータ) (2021-10-06T23:00:15Z) - Alignment Knowledge Distillation for Online Streaming Attention-based
Speech Recognition [46.69852287267763]
本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。
提案手法は認識エラーとエミッション遅延を同時に低減する。
最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。
論文 参考訳(メタデータ) (2021-02-28T08:17:38Z) - Learning for Video Compression with Recurrent Auto-Encoder and Recurrent
Probability Model [164.7489982837475]
本稿では、リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたリカレントラーニングビデオ圧縮(RLVC)手法を提案する。
RAEは、ビデオフレーム間の時間的相関を利用するために、エンコーダとデコーダの両方で繰り返しセルを使用する。
提案手法は,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現する。
論文 参考訳(メタデータ) (2020-06-24T08:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。