論文の概要: Efficient Deep Speech Understanding at the Edge
- arxiv url: http://arxiv.org/abs/2311.17065v1
- Date: Wed, 22 Nov 2023 17:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-03 13:07:55.644250
- Title: Efficient Deep Speech Understanding at the Edge
- Title(参考訳): エッジにおける高能率深部音声理解
- Authors: Rongxiang Wang and Felix Lin
- Abstract要約: 音声理解は、リアルタイム音声入力をキャプチャする洗練されたパイプラインを含む。
本稿では,限られた資源を持つエッジデバイス上でのSU性能の向上を目的とする。
我々は、SUの独特な課題に特に対処する革新的なソリューションを紹介します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary Speech Understanding (SU) involves a sophisticated pipeline:
capturing real-time voice input, the pipeline encompasses a deep neural network
with an encoder-decoder architecture enhanced by beam search. This network
periodically assesses attention and Connectionist Temporal Classification (CTC)
scores in its autoregressive output.
This paper aims to enhance SU performance on edge devices with limited
resources. It pursues two intertwined goals: accelerating on-device execution
and efficiently handling inputs that surpass the on-device model's capacity.
While these objectives are well-established, we introduce innovative solutions
that specifically address SU's distinctive challenges: 1. Late
contextualization: Enables the parallel execution of a model's attentive
encoder during input ingestion. 2. Pilot decoding: Alleviates temporal load
imbalances. 3. Autoregression offramps: Facilitate offloading decisions based
on partial output sequences.
Our techniques seamlessly integrate with existing SU models, pipelines, and
frameworks, allowing for independent or combined application. Together, they
constitute a hybrid solution for edge SU, exemplified by our prototype, XYZ.
Evaluated on platforms equipped with 6-8 Arm cores, our system achieves
State-of-the-Art (SOTA) accuracy, reducing end-to-end latency by 2x and halving
offloading requirements.
- Abstract(参考訳): リアルタイム音声入力をキャプチャするパイプラインは、ビーム検索によって拡張されたエンコーダ-デコーダアーキテクチャを備えたディープニューラルネットワークを包含する。
このネットワークは、注意度を定期的に評価し、コネクショニストの時間分類(CTC)は自己回帰出力のスコアを出力する。
本稿では,エッジデバイスにおけるsu性能を限られた資源で向上することを目的とする。
デバイス上での実行を加速し、デバイス上のモデルの能力を超える入力を効率的に処理する。
これらの目標は十分に確立されているが、su特有の課題を具体的に解決する革新的なソリューションを導入する。
1. 遅延コンテキスト化: 入力の取り込み中にモデルの注意エンコーダの並列実行を可能にする。
2. パイロットデコード: 一時的な負荷不均衡を緩和する。
3. 自己回帰オフランプ:部分出力シーケンスに基づいてオフロード決定を行う。
我々の技術は既存のSUモデル、パイプライン、フレームワークとシームレスに統合され、独立的または複合的なアプリケーションを可能にします。
これらを合わせて,プロトタイプであるXYZで実証したエッジSUのハイブリッドソリューションを構成する。
6-8のArmコアを備えたプラットフォーム上で評価を行い,本システムではSOTA(State-of-the-Art)の精度を実現し,エンドツーエンドのレイテンシを2倍に削減し,オフロード要求を半減する。
関連論文リスト
- BitPipe: Bidirectional Interleaved Pipeline Parallelism for Accelerating Large Models Training [5.7294516069851475]
BitPipeは、大規模なモデルのトレーニングを加速するための双方向のインターリーブパイプライン並列処理である。
最新の同期手法と比較して,BitPipeはGPTスタイルとBERTスタイルのモデルのトレーニングスループットを1.05x-1.28倍向上することを示す。
論文 参考訳(メタデータ) (2024-10-25T08:08:51Z) - PipeInfer: Accelerating LLM Inference using Asynchronous Pipelined Speculation [9.080650575731152]
PipeInferは、パイプライン化された投機的アクセラレーション技術で、トークン間のレイテンシを低減し、単一要求シナリオにおけるシステム利用を改善する。
PipeInferは、標準的な投機的推論よりも生成速度が2.15$times$改善されている。
論文 参考訳(メタデータ) (2024-07-16T14:52:02Z) - Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models [59.16287352266203]
本稿では,テキスト・ツー・イメージ(T2I)モデルのための新しいプロンプトベースのプルーニング手法であるAdaptive Prompt-Tailored Pruning (APTP)を紹介する。
APTPは入力テキストプロンプトに必要な容量を決定することを学び、それをアーキテクチャコードにルーティングする。
APTPはFID、CLIP、CMMDスコアの点でシングルモデルプルーニングベースラインを上回っている。
論文 参考訳(メタデータ) (2024-06-17T19:22:04Z) - ALTO: An Efficient Network Orchestrator for Compound AI Systems [20.880866765513066]
ALTOは、言語モデルのパイプラインのような複合AIシステムを効率的に提供するネットワークオーケストレータである。
言語モデルがトークン単位で出力トークンを生成すると、ALTOは可能であればステージ間で中間出力をストリームする機会を公開する。
我々は、分散パイプラインステージインスタンス間で中間データをストリーミングする際に発生する、正確性とロードバランシングという2つの新しい課題を強調した。
論文 参考訳(メタデータ) (2024-03-07T08:30:26Z) - AccEPT: An Acceleration Scheme for Speeding Up Edge Pipeline-parallel
Training [22.107070114339038]
本稿では,エッジ協調パイプライン並列トレーニングを高速化するアクセラレーションスキームであるAccEPTを提案する。
特に,異なるデバイスにおける各レイヤの遅延を正確に推定する軽量適応遅延予測器を提案する。
数値計算の結果,提案手法により,エッジパイプラインの並列学習を最大3倍高速化できることがわかった。
論文 参考訳(メタデータ) (2023-11-10T02:18:33Z) - GPU-Accelerated WFST Beam Search Decoder for CTC-based Speech
Recognition [1.2680687621338012]
Connectionist Temporal Classification (CTC)モデルは、自動音声認識(ASR)パイプラインにおいて最先端の精度を提供する。
我々は、現在のCTCモデルと互換性のある、GPU駆動の重み付き有限状態トランスデューサ(WFST)ビームデコーダを導入する。
パイプラインのスループットを向上し、レイテンシを低減し、ストリーミング推論をサポートし、オンザフライ合成による発話固有の単語ブースティングなどの高度な機能をサポートする。
論文 参考訳(メタデータ) (2023-11-08T19:57:10Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。