論文の概要: Efficient Deep Speech Understanding at the Edge
- arxiv url: http://arxiv.org/abs/2311.17065v1
- Date: Wed, 22 Nov 2023 17:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-03 13:07:55.644250
- Title: Efficient Deep Speech Understanding at the Edge
- Title(参考訳): エッジにおける高能率深部音声理解
- Authors: Rongxiang Wang and Felix Lin
- Abstract要約: 音声理解は、リアルタイム音声入力をキャプチャする洗練されたパイプラインを含む。
本稿では,限られた資源を持つエッジデバイス上でのSU性能の向上を目的とする。
我々は、SUの独特な課題に特に対処する革新的なソリューションを紹介します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary Speech Understanding (SU) involves a sophisticated pipeline:
capturing real-time voice input, the pipeline encompasses a deep neural network
with an encoder-decoder architecture enhanced by beam search. This network
periodically assesses attention and Connectionist Temporal Classification (CTC)
scores in its autoregressive output.
This paper aims to enhance SU performance on edge devices with limited
resources. It pursues two intertwined goals: accelerating on-device execution
and efficiently handling inputs that surpass the on-device model's capacity.
While these objectives are well-established, we introduce innovative solutions
that specifically address SU's distinctive challenges: 1. Late
contextualization: Enables the parallel execution of a model's attentive
encoder during input ingestion. 2. Pilot decoding: Alleviates temporal load
imbalances. 3. Autoregression offramps: Facilitate offloading decisions based
on partial output sequences.
Our techniques seamlessly integrate with existing SU models, pipelines, and
frameworks, allowing for independent or combined application. Together, they
constitute a hybrid solution for edge SU, exemplified by our prototype, XYZ.
Evaluated on platforms equipped with 6-8 Arm cores, our system achieves
State-of-the-Art (SOTA) accuracy, reducing end-to-end latency by 2x and halving
offloading requirements.
- Abstract(参考訳): リアルタイム音声入力をキャプチャするパイプラインは、ビーム検索によって拡張されたエンコーダ-デコーダアーキテクチャを備えたディープニューラルネットワークを包含する。
このネットワークは、注意度を定期的に評価し、コネクショニストの時間分類(CTC)は自己回帰出力のスコアを出力する。
本稿では,エッジデバイスにおけるsu性能を限られた資源で向上することを目的とする。
デバイス上での実行を加速し、デバイス上のモデルの能力を超える入力を効率的に処理する。
これらの目標は十分に確立されているが、su特有の課題を具体的に解決する革新的なソリューションを導入する。
1. 遅延コンテキスト化: 入力の取り込み中にモデルの注意エンコーダの並列実行を可能にする。
2. パイロットデコード: 一時的な負荷不均衡を緩和する。
3. 自己回帰オフランプ:部分出力シーケンスに基づいてオフロード決定を行う。
我々の技術は既存のSUモデル、パイプライン、フレームワークとシームレスに統合され、独立的または複合的なアプリケーションを可能にします。
これらを合わせて,プロトタイプであるXYZで実証したエッジSUのハイブリッドソリューションを構成する。
6-8のArmコアを備えたプラットフォーム上で評価を行い,本システムではSOTA(State-of-the-Art)の精度を実現し,エンドツーエンドのレイテンシを2倍に削減し,オフロード要求を半減する。
関連論文リスト
- ALTO: An Efficient Network Orchestrator for Compound AI Systems [20.880866765513066]
ALTOは、言語モデルのパイプラインのような複合AIシステムを効率的に提供するネットワークオーケストレータである。
言語モデルがトークン単位で出力トークンを生成すると、ALTOは可能であればステージ間で中間出力をストリームする機会を公開する。
我々は、分散パイプラインステージインスタンス間で中間データをストリーミングする際に発生する、正確性とロードバランシングという2つの新しい課題を強調した。
論文 参考訳(メタデータ) (2024-03-07T08:30:26Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - AccEPT: An Acceleration Scheme for Speeding Up Edge Pipeline-parallel
Training [22.107070114339038]
本稿では,エッジ協調パイプライン並列トレーニングを高速化するアクセラレーションスキームであるAccEPTを提案する。
特に,異なるデバイスにおける各レイヤの遅延を正確に推定する軽量適応遅延予測器を提案する。
数値計算の結果,提案手法により,エッジパイプラインの並列学習を最大3倍高速化できることがわかった。
論文 参考訳(メタデータ) (2023-11-10T02:18:33Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of
SSWP [13.370813866319669]
本稿では,2段階自動アノテーションパイプラインを提案する。
第1段階では,音声文と単語句読解(SSWP)ペアのコントラッシブ・テキスト・プレトレーニングを提案する。
第2段階では、事前訓練されたエンコーダで構成されるマルチモーダル・プロソディアノテータを構築し、単純で効果的なテキスト音声特徴融合方式を提案する。
論文 参考訳(メタデータ) (2023-09-11T12:50:28Z) - Communication-Computation Efficient Device-Edge Co-Inference via AutoML [4.06604174802643]
デバイスエッジのコ推論は、リソース制約のあるモバイルデバイスとエッジサーバの間のディープニューラルネットワークを分割する。
オンデバイスモデルスパーシリティレベルと中間特徴圧縮比は、ワークロードと通信オーバーヘッドに直接的な影響を与える。
深部強化学習(DRL)に基づく新しい自動機械学習(AutoML)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-30T06:36:30Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - BSN++: Complementary Boundary Regressor with Scale-Balanced Relation
Modeling for Temporal Action Proposal Generation [85.13713217986738]
我々は,時間的提案生成のための補完的境界回帰器と関係モデリングを利用する新しいフレームワークであるBSN++を提案する。
当然のことながら、提案されたBSN++は、時間的アクションローカライゼーションタスクに関するCVPR19 - ActivityNetのリーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2020-09-15T07:08:59Z) - Perceptron Synthesis Network: Rethinking the Action Scale Variances in
Videos [48.57686258913474]
ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。
データから最適なスケールのカーネルを学習することを提案する。
固定サイズのカーネルの袋からカーネルを生成するために,テキスト分割パーセプトロンシンセサイザーを提案する。
論文 参考訳(メタデータ) (2020-07-22T14:22:29Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。